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统计 学 习 是 计算 机 及 其 应 用 领域 的 一 门 重要 的 学 科 。 本 书 全 面 系统 地 
介绍 了 统计 学 习 的 主要 方法 ， 特 别 是 监督 学 习 方 法 ， 包 括 感 知 机 、k 近 
邻 法 、 杆 素 贝 叶 斯 法 、 决 策 树 、 你 辑 斯 育 回 归 与 最 大 烂 模型 、 文 持 癌 
量 机 、 提 升 方法 、EM 算 法 、 隐 马尔 可 夫 模 型 和 条 件 随 机 均等 。 除 第 1 
章 概论 和 最 后 一 章 总 结 外 ， 每 章 介绍 一 种 方法 。 叙 述 从 具体 问题 或 实 
例 入 手 ， 由 浅 入 深 ， 曾 明 思 路 ， 给 出 必要 的 数学 推导 ， 便 于 读者 营 握 
统计 学 习 方法 的 实质 ， 学 会 运用 。 为 满足 读者 进一步 学 习 的 需要 ， 书 
中 还 介绍 了 一 些 相 关 全 究 ， 给 出 了 少量 习题 ， 列 出 了 主要 参考 文献 。 
本 书 是 统计 学 习 及 相关 课程 的 教学 参考 书 ， 适 用 于 高 等 院 校 文 本 数据 
挖掘 、 信 息 检 索 及 目 袋 语言 处 理 等 专业 的 大 学 生 、 研 究 生 ， 也 可 供 从 
事 计算 机 应 用 相关 专业 的 研发 人 员 参 考 。 
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计算 机 与 网 络 已 融入 到 了 人 们 的 日 音 学 习 、 工 作 和 生活 之 中 ， 成 为 人 
们 不 可 或 缺 的 助手 和 伙伴 。 计 算 机 与 网 络 的 飞速 发 展 完全 改变 了 人 们 
的 学 习 、 工 作 和 生活 方式 。 乔 能 化 是 计算 机 人 研究 与 开发 的 一 个 主要 目 
标 。 近 几 十 年 来 的 实践 表明 ， 统 计 机 需 学 习 方 法 是 实现 这 一 目标 的 最 
有 效 手段 ， 尽 管 它 还 存在 着 一 定 的 局 限 性 。 


作者 一 直 从 事 利 用 统计 学 习 方 法 对 文本 数据 进行 各 种 智能 性 处 理 的 研 
完 ， 包 括 目 然 语言 处 理 、 信 息 检索 、 文 本 数据 挖掘 。 近 20 年 来 ， 这 些 
领域 发 展 之 快 ， 应 用 之 广 ， 实 在 令 人 慨叹 ! AH, Str plete 
人 


作者 在 日 常 的 研究 工作 中 经 常 指导 学 生 ， 并 在 国内 外 一 些 大 学 及 讲习 
班 上 多 次 做 过 关于 统计 学 习 的 报告 和 演讲 。 在 这 一 过 程 中 ， 同 学 们 学 
习 热情 很 高 ， 希 望 得 到 指导 ， 这 使 作者 产生 了 撰写 本 书 的 想法 。 


国内 外 已 出 版 了 多 本 关于 统计 机 亏 学 习 的 书籍 ， 比 如 ，Hastie 等 人 的 
《统计 学 习 基 础 》。 该 书 对 统计 学 习 的 诸多 问题 有 非常 精辟 的 论述 ， 
但 对 初学 者 来 说 显得 有 些 深 奥 。 统 计 学 习 苑 围 其 广 ， 一 两 本 书 很 难 黎 
盖 所 有 问题 。 本 书 主要 是 面向 将 统计 学 习 方 法 作为 工具 的 科研 人 员 与 
学 生 ， 特 别 是 从 事 信 息 检 索 、 上 自然 语言 处 理 、 文 本 数据 挖掘 及 相关 领 
域 的 研究 与 开发 的 科研 人 员 与 学 生 。 


本 书 力求 系统 而 详细 地 介绍 统计 学 习 的 方法 。 在 内 容 选 取 上 ， 侧 重 介 
绍 那些 最 重要 、 最 币 用 的 方法 ， 特 别 羡 天 于 分 类 与 标 广 问题 的 方法 。 
对 其 他 问题 及 方法 ， 如 聚 类 等 ， 计 划 在 今后 的 写作 中 再 加 以 介绍 。 在 
竹 述 方式 上 ， 每 一 章 讲述 一 种 方法 ， 各 章 内 容 相 对 独立 、 完 整 ， 同 时 
力 岁 用 统一 框架 来 论述 所 有 方法 ， 使 全 书 整 体 不 失 系统 性 。 读 着 可 以 
从 头 到 尾 通读 ， 也 可 以 选择 单个 章节 细 读 。 对 每 一 方法 的 讲述 力求 深 
入 浅 出 ， 给 出 必要 的 推导 证 明 ， 提 供 商 单 的 实例 ， 使 初学 者 易于 掌握 
方法 的 基本 内 容 ， 领 会 方法 的 本 质 ， 并 准确 地 使 用 方法 。 对 相关 的 次 
层 理论 ， 则 仅 予 以 筒 述 。 在 每 章 后 面 ， 给 出 一 些 习题 ， 介 绍 一 些 相关 
的 研究 动向 和 阅读 材料 ， 列 出 参考 文献 ， 以 满足 读者 进一步 学 习 的 需 
求 。 本 书 第 1 章 简要 叙述 统计 学 习 方法 的 基本 概念 ， 最 后 一 章 对 统计 学 
习 方 法 进行 比较 与 总 结 。 此 外 ， 在 附 孙 中 人 简要 介绍 一 些 共用 的 最 优化 
理论 与 方法 。 


本 书 可 以 作为 统计 机 器 学 习 及 相关 课程 的 教学 参考 书 ， 适 用 于 信息 检 
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等 人 分 别 审阅 了 全 部 或 部 分 章节 ， 提 出 了 许多 宝贵 意见 ， 对 本 书 质 量 

的 提高 有 很 大 帮助 。 在 此 向 他 们 表示 衷心 的 感谢 。 在 本 书写 作 和 出 版 
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本 章 简要 叙述 统计 学 习 方 法 的 一 些 基 本 概念 。 这 是 对 全 书 内 容 的 概 
括 ， 也 是 全 书 内 容 的 基础 。 首 移 叙 述 统计 学 习 的 定义 、 研 究 对 象 与 方 
法 ;然后 叙述 监督 学 习 ， 这 是 本 书 的 主要 内 容 ; 接着 提出 统计 学 习 方 
法 的 二 要素: 模型 、 舍 略 和 算法 ;介绍 模型 选择 ， 包 括 正则 化 、 交 又 
验证 与 学 习 的 泛 化 能 力 ， 介 绍 生成 模型 与 判别 模型 ， 最 后 介绍 监督 学 
习 方 法 的 应 用 : 分 类 问题 、 标 注 问 题 与 回归 问题 。 


1.1 统计 学 习 


1. 统计 学 习 的 特点 


统计 学 习 (statistical learning) 是 关于 计算 机 基于 数据 构建 概率 统计 模 
型 并 运用 模型 对 数据 进行 预测 与 分 析 的 一 门 学 科 。 统 计 学 习 也 称 为 统 


计 机 器 学 习 (statistical machine learning) 。 


统计 学 习 的 主要 特点 是 : (1) 统计 学 习 以 计 算 机 及 网 络 为 平台 ， 是 建 
立 在 计算 机 及 网 络 之 上 的 ; (2) 统计 学 习 以 数据 为 研究 对 象 ， 是 数据 
驱动 的 学 科 ; (3) 统计 学 习 的 目的 是 对 数据 进行 预测 与 分 析 ; (4) 

统计 学 习 以 方法 为 中 心 ， 统 计 学 习 方法 构建 模型 并 应 用 模型 进行 预测 
与 分 析 ; (5) 统计 学 习 是 概率 论 、 统 计 学 、 信 息 论 、 计 算 理论 、 最 优 
化 理论 及 计算 机 科学 等 多 个 领域 的 交叉 学 科 ， 并 且 和 在 发 展 中 逐步 形成 
独 目 的 理论 体系 与 方法 论 。 


ih KERR PE (Herbert A. Simon) 曾 对 “学 习 ” 给 出 以 下 定义 : “如果 一 
个 系统 能 够 通过 执行 某 个 过 程 改进 它 的 性 能 ， 这 就 是 学 习 。” 按 照 这 一 
观点 ， 统 计 学 习 融 是 计算 机 系统 通过 运用 数据 及 统计 方法 提高 系统 性 
能 的 机 器 学 习 。 现 在 ， 当 人 们 提 及 机 器 学 习 时 ， 往 往 古 指 统 计 机 器 学 


2. 统计 学 习 的 对 象 


统计 学 习 的 对 象 是 数据 (data) 。 它 从 数据 出 发 ， 提 取 数 据 的 特征 ， 抽 
象 出 数据 的 模型 ， 发 现 数据 中 的 知识 ， 又 回 到 对 数据 的 分 析 与 预测 中 
去 。 作 为 统计 学 习 的 对 象 ， 数 据 是 多 样 的 ， 包 括 存 在 于 计算 机 及 网 络 
上 的 各 种 数字 、 文 字 、 图 像 、 视 频 、 音 频数 据 以 及 它们 的 组 合 。 


统计 学 习 关 于 数据 的 基本 假设 是 同类 数据 具有 一 定 的 统计 规律 性 ， 这 
征 统 计 学 习 的 前 所。 这 里 的 同类 数据 是 指 具 有 有 某 种 共同 性 质 的 数据 ， 


例如 英文 文章 、 互 联网 网 页 、 数 据 库 中 的 数据 等 。 由 于 它们 具有 统计 
规律 性 ， 所 以 可 以 用 概率 统计 方法 来 加 以 处 理 。 比 如 ， 可 以 用 随机 变 
量 描 述 数 据 中 的 特征 ， 用 概率 分 布 描述 数据 的 统计 规律 。 


在 统计 学 习 过 程 中 ， 以 变量 或 变量 组 表示 数据 。 数 据 分 为 由 连续 变量 
和 离散 变量 表示 的 类 型 。 本 书 以 讨论 离散 变量 的 方法 为 主 。 男 外 ， 本 
书 只 涉及 利用 数据 构建 模型 及 利用 模型 对 数据 进行 分 析 与 预测 ， 对 数 
据 的 观测 和 收集 等 问题 不 作 讨 论 。 


3. 统计 学 习 的 目的 


统计 学 习 用 于 对 数据 进行 预测 与 分 析 ， 特 别 是 对 未 知 新 数据 进行 预测 
与 分 析 。 对 数据 的 预测 可 以 使 计算 机 更 加 智能 化 ， 或 者 说 使 计算 机 的 
某 些 性 能 得 到 提高 ， 对 数据 的 分 析 可 以 让 人 们 获取 新 的 知识 ， 给 人 们 
带 来 新 的 发 现 。 


对 数据 的 预测 与 分 析 是 通过 构建 概率 统计 模型 实现 的 。 统 计 学 习 总 的 
目标 就 是 考虑 学 习 什 么 样 的 模型 和 如 何 学 习 模 型 ， 以 使 模型 能 对 数据 
进行 准确 的 预测 与 分 机 ， 同 时 也 要 考虑 尽 可 能 地 提高 学 习 效率 。 


4. 统计 学 习 的 方法 


统计 学 习 的 方法 是 基于 数据 构建 统计 模型 从 而 对 数据 进行 预测 与 分 

析 。 统 计 学 习 由 监督 学 习 (supervised learning) 、 非 监督 学 习 
(unsupervised learning) 、 半 监督 学 习 (semi-supervised learning) 和 强 

化 学 习 (reinforcement learning) 等 组 成 。 


本 书 主要 讨论 监督 学 习 ， 这 种 情况 下 统计 学 习 的 方法 可 以 概括 如 下 : 
从 给 定 的 、 有 限 的 、 用 于 学 习 的 训练 数据 (training data) 集合 出 发 ， 
假设 数据 是 独立 同 分 布 产生 的 ; 并 且 假 设 要 学 习 的 模型 属于 某 个 函数 
的 集合 ， 称 为 假设 空间 (hypothesis space) ; 应 用 某 个 评价 准则 
(evaluation criterion) ， 从 假设 空间 中 选取 一 个 最 优 的 模型 ， 使 它 对 已 
知 训 练 数据 及 未 知 测 试 数据 (test data) 在 给 定 的 评价 准则 下 有 最 优 的 
预测 ， 最 优 模型 的 选取 由 算法 实现 。 这 样 ， 统 计 学 习 方 法 包括 模型 的 
假设 空间 、 模 型 选择 的 准则 以 及 模型 学 习 的 算法 ， 称 其 为 统计 学 习 方 
法 的 三 要 素 ， 人 简称 为 模型 (model) 、 策 略 (strategy) 和 算法 
(algorithm) o 


实现 统计 学 习 方法 的 步骤 如 下 : 


得 到 一 个 有 限 的 训练 数据 集合 ; 
确定 包公 所 有 可 能 的 模型 的 假设 空间 ， 即 学 习 模 型 的 集合 ; 
确定 模型 选择 的 准则 ， 有 即 学 习 的 策略 ; 


(1) 
) 
) 
(4) 实现 求解 最 优 模 型 的 算法 ， 即 学 习 的 算法 ; 
) 
) 
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通过 学 习 方 法 选择 最 优 模型 ; 
利用 学 习 的 最 优 模型 对 新 数据 进行 预测 或 分 析 。 


本 书 以 介绍 统计 学 习 方法 为 主 ， 特 别 是 监督 学 习 方法 ， 主 要 包括 用 于 
分 类 、 标 注 与 回归 问题 的 方法 。 这 些 方法 在 自然 语言 处 理 、 信 息 检 
索 、 文 本 数据 控 气 等 领域 中 有 着 极其 广泛 的 应 用 。 


5. 统计 学 习 的 研究 


统计 学 习 人 研究 一 般 包 括 统计 学 习 方法 (statistical learning method) 、 统 
计 学 习 理 论 (statistical learning theory) 及 统计 学 习 应 用 (application of 
statistical learning) 三 个 方面 。 统 计 学 习 方 法 的 研究 旨 在 开发 新 的 学 习 
方法 ;统计 学 习 理 论 的 研究 在 于 探求 统计 学 习 方 法 的 有 效 性 与 效率 ， 
以 及 统计 学 习 的 基本 理论 问题 ; 统计 学 习 应 用 的 研究 主要 考虑 将 统计 
学 习 方 法 应 用 到 实际 问题 中 去 ， 解 决 实际 问题 。 


6. 统计 学 习 的 重要 性 


近 20 年 来 ， 统 计 学 习 无 论 是 在 理论 还 是 在 应 用 方面 都 得 到 了 巨大 的 发 
展 ， 有 许多 重大 突破 ， 统 计 和 学习 已 被 成 功 地 应 用 到 人 工 知 能、 模式 识 
别 、 数 据 控 据 、 上 自然 语言 处 理 、 语 音 识 别 、 图 像 识 别 、 信 息 检 索 和 生 
物 信息 等 许多 计算 机 应 用 领域 中 ， 并 且 成 为 这 些 领 域 的 核心 技术 。 人 
DA a eee ieee 


统计 学 习 学 科 在 科学 技术 中 的 重要 性 主要 体现 在 以 下 几 个 方面 : 


(1) 统计 学 习 有 是 处 理 海量 数据 的 有 效 方法 。 我 们 处 于 一 个 信息 爆炸 的 
时 代 ， 海 量 数据 的 处 理 与 利用 是 人 们 必然 的 需求 。 现 实 中 的 数据 不 但 
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规模 大 ， 而 且 单 毅 具 有 不 确定 性 ， 统 计 学 习 往 往 是 处 理 这 类 数据 最 强 
有 力 的 工具 。 


(2) 统计 学 习 是 计算 机 智能 化 的 有 效 手 段 。 智 能 化 是 计算 机 发 展 的 必 
然 趋势 ， 也 是 计算 机 技术 人 研究 与 开发 的 主要 目标 。 近 几 十 年 来 ， 人 工 
智能 等 领域 的 研究 表明 ， 利 用 统计 学 习 模仿 人 类 智能 的 方法 ， 虽 有 一 
定 的 局 限 性 ， 但 仍然 是 实现 这 一 目标 的 最 有 效 手 段 。 


(3) 统计 学 习 是 计算 机 科学 发 展 的 一 个 重要 组 成 部 分 。 可 以 认为 计算 
机 科学 由 三 维 组 成 : 系统 、 计 算 、 信 息 。 统 计 学 习 主 要 属于 信息 这 一 
维 ， 并 在 其 中 起 着 核心 作用 。 


1.2 ”监督 学 习 


统计 学 习 包括 监督 学 习 、 非 监督 学 习 、 半 监督 学 习 及 强化 学 习 。 本 书 
主要 讨论 监督 学 习 问题 。 


监督 学 习 (supervised learning) 的 任务 是 学 习 一 个 模型 ， 使 模型 能 够 对 
任意 给 定 的 输入 ， 对 其 相应 的 输出 做 出 一 个 好 的 预测 (注意 ， 这 里 的 
输入 、 输 出 是 指 某 个 系统 的 输入 与 输出 ， 与 学 习 的 输入 与 输出 不 

E) 。 计 算 机 的 基本 操作 就 是 给 定 一 个 输入 产生 一 个 输出 ， 所 以 监督 
学 习 是 极其 重要 的 统计 学 习 分 支 ， 也 是 统计 学 习 中 内 容 最 丰富 、 应 用 
最 广泛 的 部 分 。 


1.2.1 基本 概念 
1. 输入 空间 、 特 征 空间 与 输出 空间 


在 监督 学 习 中 ， 将 输入 与 输出 所 有 可 能 取 值 的 集合 分 别称 为 输入 空间 
(input space) 与 输出 空间 (output space) 。 输 入 与 输出 空间 可 以 是 有 
限 元 素 的 集合 ， 也 可 以 是 整个 欧 氏 空间 。 输 入 空间 与 输出 空间 可 以 是 
Ee 
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每 个 具体 的 输入 是 一 个 实例 (instance) ， 通 常 由 特征 向 量 (feature 

vector) 表示 。 这 时 ， 所 有 特征 向 量 存在 的 空间 称 为 特征 空间 (feature 
space) 。 特 征 空 间 的 每 一 维 对 应 于 一 个 特征 。 有 时 假设 输入 空间 与 特 
征 空间 为 相同 的 空间 ， 对 它们 不 予 区 分 ， 有 时 假设 输入 空间 与 特征 空 


间 为 不 同 的 空间 ， 将 实例 从 输入 空间 映射 到 特征 空间 。 模 型 实际 上 部 
是 定义 在 特征 空间 上 的 。 


在 监督 学 习 过 程 中 ， 将 输入 与 输出 看 作 是 定义 在 输入 (特征 ) 空间 与 
输出 空间 上 的 随机 变量 的 取 值 。 输 入 、 输 出 变量 用 大 写字 母 表 示 ， 习 
惯 上 输入 变量 写作 X， 输 出 变量 写作 Y。 输 入 、 输 出 变量 所 取 的 值 用 小 
写 子 母 表 示 ， 输 入 变量 的 取 值 写作 x， 输 出 变量 的 取 值 写作 y。 灾 量 可 
以 是 标量 或 品 量 ， 都 用 相同 类 型 字母 表示 。 除 特别 声明 外 ， 本 书 中 辐 
量 均 为 列 丫 量 ， 输 入 实例 x 的 特征 向 量 记 作 


x= (9c) Ns yD nce gd yt 


x"? 表 示 x 的 第 个 特征 。 注 意 ，x。 与 x ;不 同 ， 本 书 通 常用 x ;表示 多 个 输 
入 变量 中 的 第 个 ， 即 


x - 让 c 
监督 学 习 从 训练 数据 (training data) 集合 中 学 习 模型 ， 对 测试 数据 
(test data) 进行 预测 。 训 练 数据 由 输入 (或 特征 向 量 ) 与 输出 对 组 
成 ， 训 练 集 通常 表示 为 


[= (x, 4 h% + V3 )， i nE Vy )} 


测试 数据 也 由 相应 的 输入 与 输出 对 组 成 。 输 入 与 输出 对 又 称 为 样本 
(sample) 或 样本 点 。 


输入 变量 X 和 输出 变量 Y 有 不 同 的 类 型 ， 可 以 是 连续 的 ， 也 可 以 是 离散 
的 。 人 们 根据 和 输入、 输出 变量 的 不 同类 型 ， 对 预测 任务 给 予 不 同 的 名 
称 : 输入 变量 与 输出 变量 均 为 连续 变量 的 预测 问题 称 为 回归 问题 ， 输 
出 变量 为 有 限 个 离散 变量 的 预测 问题 称 为 分 类 问题 ， 输入 变量 与 输出 
变量 均 为 变量 序列 的 预测 问题 称 为 标注 问题 。 


2. 联合 概率 分 布 


监督 学 习 假 设 输入 与 输出 的 随机 变量 X 和 Y 遵 循 联合 概率 分 布 P(X,Y) © 
P(X,Y) 表 示 分 布 画 数 ， 或 分 布 密 度 函 数 。 注 意 ， 在 学 习 过 程 中 ， 假 定 
这 一 联合 概率 分 布 存在 ， 但 对 学 习 系 统 来 说 ， 联 合 概率 分 布 的 具体 定 
义 是 未 知 的 。 训 练 数据 与 测试 数据 被 看 作 是 依 联合 概率 分 布 P(X,Y) 独 
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立 同 分 布 产生 的 。 统 计 学 习 假 设 数据 存在 一 定 的 统计 规律 ，X 和 Y 有 具有 
联合 概率 分 布 的 假设 束 是 监督 学 习 关 于 数据 的 基本 假设 。 


3. 假设 空间 


监督 学 习 的 目的 在 于 学 习 一 个 由 输入 到 输出 的 映射 ， 这 一 映射 由 模型 

来 表示 。 换 句 话说 ， 学 习 的 目的 就 在 于 找到 最 好 的 这 样 的 模型 。 模 型 

属于 由 输入 空间 到 输出 空间 的 映射 的 集合 ， 这 个 集合 吏 是 假设 空间 
(hypothesis space) 。 假 设 空 间 的 确定 意味 着 学 习 范 围 的 确定 。 


监督 学 习 的 模型 可 以 是 概率 模型 或 非 概率 模型 ， 由 条 件 概率 分 布 PCYIX) 
或 决策 函数 (decision function) Y=f(X) 表 示 ， 随 具体 学 习 方 法 而 定 。 
对 具体 的 输入 进行 相应 的 输出 预测 时 ， 写 作 P(y|x) 或 Y=f(x)。 


1.2.2 ”问题 的 形式 化 


监督 学 习 利用 训练 数据 集 学 习 一 个 模型 ， 再 用 模型 对 测试 样本 集 进行 
预测 (prediction) 。 由 于 在 这 个 过 程 中 需要 训练 数据 集 ， 而 训练 数据 
集 往往 是 人 工 给 出 的 ， 所 以 称 为 监督 学 习 。 监 督学 习 分 为 学 习 和 预测 
两 个 过 程 ， 由 学 习 系 统 与 预测 系统 完成 ， 可 用 图 1.1 来 搬 述 。 


YEY) ENYN) 


预测 系统 


图 1.1 监督 学 习 问 题 


首先 给 定 一 个 训练 数据 集 


T= { (% X Yı ), (x, 5 Və ), e (Xi ‘ Vy ) \ 


其 中 (xi,y;)，i==1,2,.…,N， 称 为 样本 或 样本 点 。x; exSR"' 是 输入 的 观 
测 值 ， 也 称 为 输入 或 实例 ，yi ey 是 输出 的 观测 值 ， 也 称 为 输出 。 


监督 学 习 中 ， 假 设 训练 数据 与 测试 数据 是 依 联 合 概率 分 布 P(X,Y) 独 立 
同 分 布 产生 的 。 


在 学 习 过 程 中 ， 学 习 系统 利用 给 定 的 训练 数据 集 ， 通 过 学 习 (或 训 
练 ) 得 到 一 个 模型 ， 表 示 为 条 件 概率 分 布 记 (YIX) 或 决策 丽 数 Y= 7 
(X)。 条 件 概率 分 布 p (Y|X) 或 决策 画 数 Y= 7(X) 描 述 输入 与 输出 随机 变 
量 之 间 的 映射 关系 。 


在 预测 过 程 中 ， 预 测 系 统 对 于 给 定 的 测试 样本 集中 的 输入 x yy» HR 
型 yw = arg Max P(Y ya | Xvi) By nor 一 了 (XN+1) 给 出 相应 的 输出 y Nt 


在 学 习 过 程 中 ， 学 习 系 统 (也 就 是 学 习 算法 ) 试图 通过 训练 数据 集中 
的 样本 (xi ，yi) 市 来 的 信息 学 习 模型 。 具 体 地 说 ， 对 输入 xi ， 一 个 具体 
的 模型 y=f(x) 可 以 产生 一 个 输出 f(x ;)， 而 训练 数据 集中 对 应 的 输出 是 y 
i， 如 果 这 个 模型 有 很 好 的 预测 能 力 ， 训 练 样 本 输出 y ;和 模型 输出 f(x ;) 
之 间 的 差 就 应 该 足够 小 。 学 习 系 统 通过 不 断 的 尝试 ， 选 取 最 好 的 模 
型 ， 以 便 对 训练 数据 集 有 足够 好 的 预测 ， 同 时 对 未 知 的 测试 数据 集 的 
预测 也 有 尽 可 能 好 的 推广 。 


13 ”统计 学 习 三 要 素 


统计 学 习 方 法 都 是 由 模型 、 全 略 和 算法 构成 的 ， 即 统计 学 习 方 法 由 三 
要 尼 构 成 ， 可 以 人 简单 地 表示 为 
方法 = 模型 十 策略 十 算法 


下 面 论述 监督 学 习 中 的 统计 学 习 三 要 素 。 非 监督 学 习 、 强 化 学 习 也 同 
人 
学 习 三 要 素 。 


1.3.1 ”模型 


统计 学 习 首 要 考虑 的 问题 是 学 习 什么 样 的 模型 。 在 监督 学 习 过 程 中 ， 
模型 就 是 所 要 学 习 的 条 件 概率 分 布 或 决策 图 数 。 模 型 的 假设 空间 
(hypothesis space) 包含 所 有 可 能 的 条 件 概率 分 布 或 决策 范 数 。 例 如 ， 
假设 决 案 钞 数 是 输入 变量 的 线性 函数 ， 那 么 模型 的 假设 空间 束 是 所 有 
这 些 线性 函数 构成 的 函数 集合 。 假 设 空 间 中 的 模型 一 般 有 无 穷 多 个 。 
假设 空间 用 下 表示。 假设 空间 可 以 定义 为 决 寅 函数 的 集合 
={/|Y=/(X)} (1.1) 
其 中 ，X 和 Y 是 定义 在 输入 空间 x 和 输出 空间 了 上 的 变量 。 这 时 三 通常 
是 由 一 个 参数 回 量 决定 的 函数 族 : 


F =Y = AAG ER) (1.2) 


BAN BO 取 值 于 n 维 欧 氏 空间 R"* ， 称 为 参数 空间 (parameter 
space) 。 假 设 空间 也 可 以 定义 为 条 件 概率 的 集合 


F ={P| P(Y|X)} (1.3) 


P, XAY exe SFE Had A Z |) x AT EY EAL SS Bt o TREY EF 
常 是 由 一 个 参数 向 量 决定 的 条 件 概率 分 布 族 : 


F ={P|P,(Y|X),0 eR} (1.4) 
BOBO 取 值 于 n 维 欧 氏 衬 间 R"， 也 称 为 参数 空间 。 


本 书 中 称 由 决策 函数 表示 的 模型 为 非 概率 模型 ， 由 条 件 概率 表示 的 模 
型 为 概率 模型 。 为 了 简便 起 见 ， 当 论 及 模型 时 ， 有 时 只 用 其 中 一 种 模 


型 。 
1.3.2 策略 


有 了 模型 的 假设 空间 ， 统 计 学 习 接 着 需要 考虑 的 是 按照 什么 样 的 准则 
| 或 选择 最 优 的 模型 。 统 计 学 习 的 目标 在 于 从 假设 至 间 中 选取 最 优 
Ba o 


首先 引入 损失 函数 与 风险 函数 的 概念 。 损 失 画 数 度 量 模型 一 次 预测 的 
好 十， 风险 函数 度量 平均 意义 下 模型 预测 的 好 坏 。 


1. 损失 一 数 和 风险 函数 

监督 学 习 问 题 是 在 假设 空间 大 中 选取 模型 f 作 为 决 集 芳 数 ， 对 于 给 定 的 

输入 XX， 由 f(X) 给 出 相应 的 输出 Y， 这 个 输出 的 预测 值 {(X) 与 真实 值 Y 可 

能 一 致 也 可 能 不 一 致 ， 用 一 个 损失 函数 (loss function) 或 代价 函数 
(cost function) 来 度量 预测 错误 的 程度 。 损 失 函 数 是 fX) 和 Y 的 非 负 实 

ERS, id fEL(Y,f(X)) ° 

统计 学 习 和 常用 的 损失 函数 有 以 下 几 种 : 


(1) 0-1 损 失 函 数 (0-1 loss function) 


a Tf (1.5) 
lo, y=s(X) 
(2) 平方 损失 画 数 (quadratic loss function) 
LY, f(X)) = -f(X (1.6) 
(3) 绝对 损失 函数 (absolute loss function) 
L(Y, f(X) =|¥ -f(X)| (1.7) 


(4) 对 数 损失 函数 (logarithmic loss function) 或 对 数 似 然 损失 函数 
(loglikelihood loss function) 


L(Y, P(Y | X)) =—log P(Y |X) (1.8) 


损失 函数 值 越 小 ， 模 型 就 越 好 。 由 于 模型 的 输入 、 输 出 (X,Y) 是 随机 
变量 ， 遵 循 联合 分 布 P(X,Y)， 所 以 损失 函数 的 期 望 是 


Rog (f) = E ILY, SM = [LO SCD) PC, y)drdy (1.9) 


这 是 理论 上 模型 f(X) 关 于 联合 分 布 P(X,Y) 的 平均 意义 下 的 损失 ， 称 为 风 
险 函 数 (risk function) 或 期 望 损失 (expected loss) 。 


学 习 的 目标 束 是 选择 期 户 风 险 最 小 的 模型 。 由 于 联合 分 布 P(X,Y) 是 林 
知 的 ，R exp (不 能 直接 计算 。 实 际 上 ， 如 果 知 道 联 合 分 布 PIX,Y)， 可 
以 从 联合 分 布 直接 求 出 条 件 概率 分 布 PIYIX)， 也 台 不 需要 学 习 了 。 正 因 
为 不 知道 联合 概率 分 布 ， 所 以 才 需 要 进行 学 习 。 这 样 一 来 ， 一 方面 根 
据 期 望 风险 最 小 学 习 模 型 要 用 到 联合 分 布 ， 男 一 方面 联合 分 布 义 古木 
知 的 ， 所 以 监督 学 习 就 成 为 一 个 病态 问题 (ill-formed problem) 。 


给 定 一 个 训练 数据 集 
T = {y1 ) y2) ,Xxy, pn)} 


模型 f{(X) 关 于 训练 数据 集 的 平均 损失 称 为 经 验 风险 (empirical risk) 或 


经 验 损 失 (empirical loss) ， 记 作 R emp: 


_ ie 
Rep (f) = pat (x,)) (1.10) 


期 望 风 险 R oo (是 模型 关于 联合 分 布 的 期 望 损失 ， 经 验 风险 R om (OE 
模型 关于 训练 样本 集 的 平均 损失 。 根 据 大 数 定律 ， 当 样本 容量 N 趋 于 无 
穷 时 ， 经 验 风险 R em, (1) 趋 于 期 望 风险 R oo (f)。 所 以 一 个 很 自然 的 想法 
是 用 经 验 风险 估计 期 望 风险 。 但 是 ， 由 于 现实 中 训练 样本 数目 有 限 ， 
甚至 很 小 ， 所 以 用 经 验 风险 估计 期 望 风 险 常 常 并 不 理想 ， 要 对 经 验 风 
险 进行 一 定 的 矫正 。 这 就 关系 到 监督 学 习 的 两 个 基本 策略 ， 经 验 风险 
最 小 化 和 结构 风险 最 小 化 。 


2. 经 验 风 险 最 小 化 与 结构 风险 最 小 化 


在 假设 空间 、 损 失 函 数 以 及 训练 数据 集 确定 的 情况 下 ， 经 验 风险 函数 
式 (1.10) 就 可 以 确定 。 经 验 风 险 最 小 化 (empirical risk minimization, 
ERM) 的 策略 认为 ， 经 验 风险 最 小 的 模型 是 最 优 的 模型 。 根 据 这 一 策 
略 ， 按 照 经 验 风险 最 小 化 来 最 优 模型 就 古 求 解 最 优化 问题 : 


~~ le 
min y LOS) (1.11) 


EP, F 古 假 设 空间 。 


当 样本 容量 足够 大 时 ， 经 验 风险 最 小 化 能 保证 有 很 好 的 学 习 效果 ,在 

现实 中 被 广泛 采用 。 比 如 ， 极 大 似 然 估计 (maximum likelihood 

estimation) 就 是 经 验 风 险 最 小 化 的 一 个 例子 。 当 模型 是 条 件 概率 分 

Mi, CBEST CHAE OY, EMEA MCRL OT TEAMA 
p fo} 


但 是， 当 样 本 容量 很 小 时 ， 经 验 风险 最 小 化 学 习 的 效果 束 林 必 很 好 ， 
会 产生 后 面 将 要 叙述 的 “过 拟 合 (over-fitting)” 现 象 。 


结构 风险 最 小 化 (structural risk minimization, SRM) 是 为 了 防止 过 拟 
合 而 提出 来 的 策略 。 结 构 风 险 最 小 化 等 价 于 正则 化 (regularization) 。 
结构 风险 在 经 验 风 险 上 加 上 表示 模型 复杂 度 的 正则 化 项 (regularizer) 

akii (penalty term) 。 在 假设 空间 、 损 失 函 数 以 及 训练 数据 集 确定 
的 情况 下 ， 结 构 风 险 的 定义 是 


ar. ee : 
Rom I) = DLO L&E) + AIP) (1.12) 


av j=) 


EHS) ARAN BARE, FEE SCE IA EZK oo BAA FS 
杂 ， 复 杂 上 度 J( 就 越 大 ; M2, BAe, SAI) o tet 
是 说 ， 复 杂 上 度 表 示 了 对 复杂 模型 的 惩 加 。4 >0 是 系数 ， 用 以 权衡 经 验 
风险 和 模型 复杂 度 。 结 构 风 险 小 需要 经 验 风 险 与 模型 复杂 度 同 时 小 。 
a 风险 小 的 模型 往往 对 训练 数据 以 及 未 知 的 测试 数据 都 有 较 好 的 预 
测 。 


比如 ， 贝 叶 斯 估计 中 的 最 大 后 验 概率 估计 (maximum posterior 
probability estimation, MAP) 就 是 结构 风险 最 小 化 的 一 个 例子 。 当 模 
型 是 条 件 概率 分 布 、 损 失 函 数 是 对 数 损失 函数 、 模 型 复杂 度 由 模型 的 
先 验 概率 表示 时 ， 结 构 风 险 最 小 化 就 等 价 于 最 大 后 验 概率 估计 。 


结构 风险 最 小 化 的 策略 认为 结构 风险 最 小 的 模型 是 最 优 的 模型 。 所 以 
求 最 优 模型 ， 束 是 求解 最 优化 问题 : 


min LL Lf) + AID) (1.13) 
feF ! : i=l 

这 样 ， 监 督学 习 问 题 惑 变 成 了 经 验 风 险 或 结构 风险 函数 的 最 优化 问题 

(1.11) 和 (1.13) 。 这 时 经 验 或 结构 风险 函数 是 最 优化 的 目标 函数 。 


1.3.3 ”算法 


算法 是 指 学 习 模 型 的 具体 计算 方法 。 统 计 学 习 基 于 训练 数据 集 ， 根 据 
学 习 策 略 ， 从 假设 空间 中 选择 最 优 模型 ， 最 后 需要 考虑 用 什么 样 的 计 
算 方法 求解 最 优 模型 。 


这 时 ， 统 计 学 习 问 题 归 结 为 最 优化 问题 ， 统 计 学 习 的 算法 成 为 求解 最 
优化 问题 的 算法 。 如 条 最 优化 问题 有 显 式 的 解析 解 ， 这 个 最 优化 问题 
就 比较 简单 。 但 通常 解析 解 不 存在 ， 这 就 需要 用 数值 计算 的 方法 求 
解 。 如 何 保证 找到 全 局 最 优 解 ， 并 使 求解 的 过 程 非常 高 效 ， 束 成 为 一 
个 重要 问题 。 统 计 学 习 可 以 利用 已 有 的 最 优化 算法 ， 有 时 也 需要 开发 
独 目的 最 优化 算法 。 


统计 学 习 方法 之 间 的 不 同 ， 主 要 来 目 其 模型 、 策 略 、 算 法 的 不 同 。 确 
定 了 模型 、 蛇 略 、 算 法 ， 统 计 学 习 的 方法 也 束 确 定 了 。 这 也 融 是 将 其 
称 为 统计 学 习 三 要 素 的 原因 。 


14 ”模型 评估 与 模型 选择 
1.4.1 训练 误差 与 测试 误差 


统计 学 习 的 目的 是 使 学 到 的 模型 不 仅 对 已 知 数据 而 且 对 未 知 数据 都 能 
有 很 好 的 预测 能 力 。 不 同 的 学 习 方 法 会 给 出 不 同 的 模型 。 当 损失 函数 
给 定时 ， 基 于 损失 函数 的 模型 的 训练 误差 (training error) 和 模型 的 测 
斌 误差 (test error) 就 自然 成 为 学 习 方 法 评估 的 标准 。 注 意 ， 统 计 学 习 
方法 具体 采用 的 损失 函数 未 必 是 评估 时 使 用 的 损失 函数 。 当 然 ， 让 两 
者 一 致 是 比较 理想 的 。 


假设 学 习 到 的 模型 是 Y=F (X)， 训 | 练 误差 是 模型 Y=F (X) 关 于 训练 数据 
集 的 平均 损失 : 


N 


n l ~ 
Rem (L) = DLO S) (1.14) 


其 中 N 是 训练 样本 容量 。 


测试 误差 是 模型 Y=F (X) 关 于 测试 数据 集 的 平均 损失 : 


N 


L(y, F) (1.15) 


2 =e 
€ test are 
i 1 


ELH’ 是 测试 样本 容量 。 


例如 ， 当 损失 函数 是 0-1 损 失 时 ， 测 斌 误差 就 变 成 了 和 常见 的 测试 数据 集 
上 的 误差 率 (error rate) 


1x y 
Crest = pr (y,  f(x,)) (1.16) 
i ial 


这 里 I 是 指示 函数 (indicator function) , Elyx f œH, FAO © 
相应 地 ， 常 见 的 测试 数据 集 上 的 准确 率 (accuracy) 为 


l N’ 区 
Test = 7 Del (Y, = f(x) (1.17) 
! i=l 


=| x, 


训练 误差 的 大 小 ， 对 判断 给 定 的 问题 是 不 是 一 个 容易 学 习 的 问题 是 
意义 的 ， 但 本 质 上 不 重要 。 测 斌 误差 反映 了 学 习 方 法 对 未 知 的 测试 数 
据 集 的 预测 能 力 ， 是 学 习 中 的 重要 概念 。 显 然 ， 给 定 两 种 学 习 方 法 ， 
测试 误差 小 的 方法 具有 更 好 的 预测 能 力 ， 是 更 有 效 的 方法 。 通 常 将 学 
习 方法 对 未 知 数据 的 预测 能 力 称 为 泛 化 能 力 (generalization ability) ， 
这 个 问题 将 在 1.6 节 继续 论述 © 


142 ”过 拟 合 与 模型 选择 


当 假 设 空间 含有 不 同 复杂 度 (例如 ， 不 同 的 参数 个 数 ) 的 模型 时 ， 就 
要 面临 模型 选择 (model selection) 的 问题 。 我 们 希望 选择 或 学 习 一 个 
合适 的 模型 。 如 来 在 假设 空间 中 存在 “ 真 ” 模 型 ， 那 么 所 选择 的 模型 应 
该 通 近 真 模型 。 有 具体 地 ， 所 选择 的 模型 要 与 真 模型 电 参 数 个 数 相 同 ， 
所 选择 的 模型 的 参数 向 量 与 真 模 型 的 参数 癌 量 相近 。 


如 采 一 味 追 求 提高 对 训练 数据 的 预测 能 力 ， 所 选 模型 的 复杂 度 则 往往 
会 比 真 模型 更 高 。 这 种 现象 称 为 过 拟 合 (over-fitting) 。 过 拟 合 是 指 学 
习 时 选择 的 模型 所 包 侣 的 参数 过 多 ， 以 致 于 出 现 这 一 模型 对 已 知 数据 
预测 得 很 好 ， 但 对 未 知 数据 预测 得 很 老 的 现象 。 可 以 说 模型 选择 旨 在 
避免 过 拟 合并 提高 模型 的 预测 能 


下 面 ， 以 多 项 式 函 数 拟 合 问题 为 例 ， 说 明 过 拟 合 与 模型 选择 。 这 是 一 
个 回归 问题 。 


例 1.1 ”假设 给 定 一 个 训练 数据 集 电 : 

[= (x, Vi, J (x, V2 ), es (x, > Vy ) f 
其 中 ，x; eR 是 输入 x 的 观测 值 ，y; eR 是 相应 的 输出 y 的 观测 值 ，i= 
1,2,...,N。 多 项 式 函 数 拟 合 的 任务 是 假设 给 定数 据 由 M 次 多 项 式 函 数 生 
成 ， 选 择 最 有 可 能 产生 这 些 数据 的 M 次 多 项 式 函 数 ， 即 在 M 次 多 项 式 画 
数 中 选择 一 个 对 已 知 数据 以 及 未 知 数 据 都 有 很 好 预测 能 力 的 函数 。 


假设 给 定 如 图 1.2 所 示 的 10 个 数据 点 ， 用 0~9 次 多 项 式 画 数 对 数据 进行 
拟 合 。 图 中 画 出 了 需要 用 多 项 式 函 数 曲线 拟 合 的 数据 。 


设 M 次 多 项 式 为 


M 
fx w=w +WxX4+W x? tew => wx! 
ed B 1° 2 M~ - he 


j=0 


rh 中 x 是 单 变量 输入 ， W0 WwW1wWM，…. .是 M+1 个 参数 8 


解决 这 一 问题 的 方法 可 以 是 这 样 的 . 首先 确定 模型 的 复杂 度 ， 即 确定 
多 项 式 的 次 数 ， 然 后 在 给 定 的 模型 复杂 度 下 ， 按 照 经 验 风 险 最 小 化 的 
人 


L(w) = PAUSA (1.18) 


图 1.2”M 次 多 项 式 函 数 拟 合 问题 的 例子 


这 时 ， 损 失 画 数 为 平方 损失 ， 系 数 > 是 为 了 计算 方便 。 
这 是 一 个 简单 的 最 优化 问题 。 将 模型 与 训练 数据 代入 式 (1.18) 中 ， 有 


N 
=l 


] M 2 
L(w) 13 (Sma -| 
i=l \ j=0 


对 wj 求 俩 导数 并 令 其 为 0， 可 得 


于 是 求 得 拟 合 多 项 式 系数 wi ,wi ,…, wi 


图 1.2 给 出 了 M=0，M=1，M=3 及 M=9 时 多 项 式 函 数 拟 合 的 情况 。 如 
果 M=0， 多 项 式 曲线 是 一 个 常数 ， 数 据 拟 合 效 果 很 莽 。 如 果 M=1， 多 
项 式 曲线 是 一 条 直线 ， 数 据 拟 合 效 果 也 很 差 。 相 反 ， 如 果 M=9， 多 项 
式 曲 线 通过 每 个 数据 点 ， 训 练 误 差 为 0。 从 对 给 定 训练 数据 拟 合 的 角度 
来 说 ， 效 果 是 最 好 的 。 但 是 ， 因 为 训练 数据 本 身 存 在 噪声 ， 这 种 拟 合 
曲线 对 未 知 数据 的 预测 能 力 往往 并 不 是 最 好 的 ， 在 实际 学 习 中 并 不 可 
取 。 这 时 过 拟 合 现象 就 会 发 生 。 这 就 是 说 ， 模 型 选择 时 ， 不 仪 要 考虑 
对 已 知 数据 的 预测 能 力 ， 而 且 还 要 考虑 对 未 知 数据 的 预测 能 力 。 当 M 
=3 时 ， 多 项 式 曲 线 对 训练 数据 拟 合 效 果 足 够 好 ， 模 型 也 比较 简单 ， 是 
一 个 较 好 的 选择 . 


在 多 项 式 函 数 拟 合 中 可 以 看 到 ， 随 着 多 项 式 次 数 〈 模 型 复杂 度 ) 的 增 
加 ， 训 练 误 差 会 减 小 ， 直 至 趋向 于 0， 但 是 测试 误差 却 不 如 此 ， 它 会 随 
着 多 项 式 次 数 (模型 复杂 度 ) 的 增加 先 减 小 而 后 增 大 。 而 最 终 的 目的 
征 使 测试 误差 达到 最 小 。 这样， 在 多 项 式 函 数 拟 合 中 ， 束 要 选择 合适 
和 
aya ,| Oo 
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的 复杂 度 增 大 时 ， 训 练 误差 会 逐渐 减 小 并 趋向 于 0;， 而 测试 误差 会 先 减 
小 ， 达 到 最 小 值 后 又 增 大 。 当 选择 的 模型 复杂 度 过 大 时 ， 过 拟 合 现象 
驶 会 发 生 。 这 样 ， 在 学 习 时 融雪 防止 过 拟 合 ， 进 行 最 优 的 模型 选择 ， 

即 选择 复杂 度 适 当 的 模型 ， 以 达到 使 测试 误差 最 小 的 学 习 目 的 。 下 面 
介绍 两 种 党 用 的 模型 选择 方法 .正则 化 与 交 义 验证 。 


测试 误差 


预测 误差 


训练 误差 


模型 复杂 度 


图 1.3 ”训练 误差 和 测试 误差 与 模型 复杂 度 的 关系 


1.5 正则 化 与 交叉 验证 
1.5.1 ”正则 化 


模型 选择 的 典型 方法 是 正则 化 (regularization) 。 正 则 化 是 结构 风险 最 
小 化 策略 的 实现 ， 是 在 经 验 风 险 上 加 一 个 正则 化 项 (regularizer) BY Ti 
项 (penalty term)。 正 则 化 项 一 般 是 模型 复杂 度 的 单调 递增 函数 ， 模 型 越 
i TEM BK ° EEE, EMI De re EY I] AIS 


正则 化 一 般 具 有 如 下 形式 : 


min YL SE) +A) (1.19) 
pam, y i=l 


HP, Biles, BEEN, ALON vl PS ZAK 
系 的 系数 。 


正则 化 项 可 以 取 不 同 的 形式 。 例 如 ， 回 归 问 题 中 ， 损 失 画 数 是 平方 损 
失 ， 正 则 化 项 可 以 是 参数 向 量 的 L , ER: 

L(w) = ay fiw- + a Iwl 

Neen i 2 
这 里 ，|lw|| 表 示 参 数 向 量 w 的 L » YER o 
正则 化 项 也 可 以 是 参数 向 量 的 L | 范 数 : 
| oc ; 
L(w) = pr (xw) -y +Alwll 


XE, w 1 表示 参数 向 量 w 的 L | YEA o 


2 项 的 模型 复杂 度 会 较 大 。 正 则 化 的 作用 是 选择 经 验 风 险 与 模型 复杂 度 


同时 较 小 的 模型 。 


正则 化 符合 奥 卡 姆 剃刀 (Occam's razor) 原理 。 奥 卡 姆 剃刀 原理 应 用 于 
模型 选择 时 变 为 以 下 想法 : 在 所 有 可 能 选择 的 模型 中 ， 能 够 很 好 地 解 
释 已 知 数 据 并 且 十 分 简单 才 是 最 好 的 模型 ， 也 就 是 应 该 选择 的 模型 。 
从 贝 叶 斯 估计 的 角度 来 看 ， 正 则 化 项 对 应 于 模型 的 先 验 概率 。 可 以 假 
设 复杂 的 模型 有 较 小 的 先 验 概率 ， 简 单 的 模型 有 较 大 的 先 验 概 率 。 


1.5.2 ”交叉 验证 
另 一 种 常用 的 模型 选择 方法 是 交叉 验证 (cross validation) ° 


如 果 给 定 的 样本 数据 充足 ， 进 行 模 型 选择 的 一 种 简单 方法 是 随机 地 将 
数据 集 切 分 成 三 部 分 ， 分 别 为 训练 集 (training set) ` WUER 

(validation set) 和 测试 集 (test set) 。 训 练 集 用 来 训练 模型 ， 验 证 集 
用 于 模型 的 选择 ， 而 测试 集 用 于 最 终 对 学 习 方 法 的 评估 。 在 学 习 到 的 
不 同 复杂 度 的 模型 中 ， 选 择 对 验证 集 有 最 小 预测 误差 的 模型 。 由 于 验 
证 集 有 足够 多 的 数据 ， 用 它 对 模型 进行 选择 也 是 有 效 的 。 


但 是 ， 在 许多 实际 应 用 中 数据 是 不 充足 的 。 为 了 选择 好 的 模型 ， 可 以 
采用 交 义 验证 方法 。 交 叉 验 证 的 基本 想法 古 重复 地 使 用 数据 ， 把 给 定 
的 数据 进行 切 分 ， 将 切 分 的 数据 集 组 合 为 训练 集 与 测试 集 ， 在 此 基础 
上 反复 地 进行 训练 、 测 斌 以 及 模型 选择 。 


1. 简单 交叉 验证 


简单 交叉 验证 方法 是 : 首先 随机 地 将 已 给 数据 分 为 两 部 分 ， 一 部 分 作 
为 训练 集 ， 另 一 部 分 作为 测试 集 (例如 ，70% 的 数据 为 训练 集 ，30% 的 
数据 为 测试 集 ) ; 然后 用 训练 集 在 各 种 条 件 下 (例如 ， 不 同 的 参数 个 
数 ) 训练 模型 ， 从 而 得 到 不 同 的 模型 ， 在 测试 集 上 评价 各 个 模型 的 测 
试 误差， 选 出 测试 误差 最 小 的 模型 。 


2. S 折 交 又 验证 
应 用 最 多 的 是 $ 折 交叉 验证 (S-fold cross validation) ， 方 法 如 下 : 首先 


随机 地 将 已 给 数据 切 分 为 $ 个 互 不 相交 的 天 小 相同 的 子 集 ; 然后 利用 S- 
1 个 子 集 的 数据 训练 模型 ， 利 用 余下 的 子 集 测试 模型 ， 将 这 一 过 程 对 可 


能 的 S 种 选择 重复 进行 ， 最 后 选 出 $ 次 评测 中 平均 测试 旋 产 最 小 的 模 
型 。 


3. 留 一 交叉 验证 


S 折 交叉 验证 的 特殊 情形 是 Ss=N， 称 为 留 一 交叉 验证 (leave-one-out 
cross validation) ， 往 往 在 数据 缺乏 的 情况 下 使 用 。 这 里 ，N 是 给 定数 
据 集 的 容量 。 


1.6 ZABE 
1.6.1 泛 化 误差 


学 习 方 法 的 泛 化 能 力 (generalization ability) 是 指 由 该 方法 学 习 到 的 模 
型 对 未 知 数据 的 预测 能 力 ， 是 学 习 方法 本 质 上 重要 的 性 质 。 现 实 中 采 
用 最 多 的 办 法 是 通过 测试 误差 来 评价 学 习 方 法 的 泛 化 能 力 。 但 这 种 评 
价 是 依赖 于 测试 数据 集 的 。 因 为 测试 数据 集 是 有 限 的 ， 很 有 可 能 由 此 
得 到 的 评价 结果 是 不 可 靠 的 。 统 计 学 习 理 论 试图 从 理论 上 对 学 习 方 法 
的 泛 化 能 力 进 行 分 析 。 


首先 给 出 泛 化 误差 的 定义 。 如 果 学 到 的 模型 是 六 ， 那 么 用 这 个 模型 对 未 
知 数据 预测 的 误差 即 为 泛 化 误差 (generalization error) 


Rag (f) = E LY, FAM = J LO, FOO) PCH, ydrdy (1.20) 


泛 化 误差 反映 了 学 习 方法 的 泛 化 能 力 ， 如 有 果 一 种 方法 学 习 的 模型 比 兄 
一 种 方法 学 习 的 模型 具有 更 小 的 汉化 误差 ， 那 么 这 种 方法 就 更 有 效 。 
事实 上 ， 泛 化 误差 就 是 所 学 习 到 的 模型 的 期 望 风险 。 


1.6.2” 泛 化 误差 上 界 


学 习 方 法 的 泛 化 能 力 分 析 往 往 是 通过 研究 泛 化 误差 的 概率 上 界 进行 

的 ， 简 称 为 泛 化 误差 上 界 (generalization error bound) 。 具 体 来 说 ， 就 
是 通过 比较 两 种 学 习 方 法 的 汉化 误差 上 界 的 大 小 来 比较 它们 的 优 务 。 
泛 化 误差 上 界 通 常 具 有 以 下 性 质 : 它 是 样本 容量 的 函数 ， 当 样本 容量 
增加 时 ， 泛 化 上 界 趋 于 0; 它 是 假设 空间 容量 (capacity) 的 函数 ， 假 设 
空间 容量 越 大 ， 模 型 就 越 难 学 ， 泛 化 误差 上 界 就 越 大 。 


下 面 给 出 一 个 简单 的 泛 化 误差 上 界 的 例子 ， 二 类 分 类 问题 的 泛 化 误差 


I 


考 虚 二 类 分 类 问题 。 已 知 训练 数据 集 T= {(k 1. y1),(Ko, Y2) ny 
N)}， 它 是 从 联合 概率 分 布 P(X,Y) 独 立 同 分 布 产生 的 ，XER"， 

Yef{-1,+1}。 假 设 空间 是 函数 的 有 限 集合 下 ={f,, fo,...fyh, deena 
个 数 。 设 f 是 从 下 中 选取 的 函数 。 损 失 男 数 是 0-1 损 失 。 关 于 {f 的 期 望 风 


险 和 经 验 风 险 分 别 是 


R(f)= ELLY, f(X))] (1.21) 

ais os ] N ; 

RP) =T ELOS E) (1.22) 
i=l 


经 验 风 险 最 小 化 画 数 是 

fy =argmin R(/) (1.23) 
人 们 更 关心 的 是 fN 的 泛 化 能 力 

R(fy) = ELLY, fy (X))] (1.24) 


下 面 讨 论 从 有 限 集合 矿 ={f,, fofa} HERE E A BEA IZ Lik 
Fe LR 

定理 1.1 ( 泛 化 误差 上 界 ) 对 二 类 分 类 问题 ， 当 假设 空间 是 有 限 个 画 
数 的 集合 大 = {fi ，f,,...,f4} 时 ， 对 任意 一 个 函数 fe 玉 ， 至 少 以 概率 
1-6 ， 以 下 不 等 式 成 立 : 


R(f) < R(f)+e(d,N,o) (1.25) 
其 中 ， 


] | . 
&(d,N,6)= | 一 -| logd + log— 1.26 
(d, N,ò) z gc e7] ( ) 


不 等 式 (1.25) 左 端 RG 是 泛 化 误差 ， 右 端 即 为 泛 化 误差 上 界 。 在 
误差 上 界 中 ， 第 1 项 是 训练 误差 训练 误差 越 小 ， 泛 化 误差 也 越 小 。 

2 项 E (d, Nb ) 是 N 的 单调 递减 函数 ， 当 N 趋 于 无 穷 时 趋 于 0; 同时 它 也 
是 logd 阶 的 函数 ， 假 设 空间 下 包含 的 函数 越 多 ， 其 值 越 大 。 


证 明 ”在 证 明 中 要 用 到 Hoeffding 不 等 式 ， 先 八 述 如 下 。 


设 % =X, 是 独立 随机 变 SEXX, X ZM, X,ela,, bi], MIHE 
Zo, “DE KANE SR BEAT 


i | (1.27) 
Pica (b, -—a, 3 
_ -J 
P(ES, -S, >t) <exp| ——~— (1.28) 
Most —ay 


对 任意 函数 fe 下， 名 是 N 个 独立 的 随机 变量 L(Y,f(X)) 的 样本 均值 ， 
R(f) 是 随机 变量 L(Y,f(X)) 的 期 望 值 。 如 果 损 失 函 数 取 值 于 区 间 [0,1]， 即 
对 所 有 i，[a;，b;]==[0,1], 那 么 由 Hoeffding 不 等 式 (1.28) 不 难得 知 ， 
对 EE >0， 以 下 不 等 式 成 立 : 
P(R(f)-R(f)> €) < exp(-2Ne’) 
HFF 二 {fi1，{;;.:f4} 是 一 个 有 限 集合 ; B 
POf EF: R(f)-R(f)= 8) = P(U RU) - RU) = E} 
feF 
< È P(R(f)-R(f) 26) 
fef 
< dexp(—2Ne’) 
或 者 等 价 的 ， 对 任意 fs 大 A 


P(R(f)—R(f) < €) = 1—dexp(-2Ne’) 
4 5 =dexp(-2Ne’) (1.29) 


则 P(R(f)<R(f) +6) 21-6 


eee aaa AR(f<p(HtE, HE 由 式 (1.29) 得 到 ， 即 为 式 
1.26) 。 


从 泛 化 误差 上 界 可 知 ， 
R(fy ) 三 Ry ) + eld, N,O) 


其 中 ，E@ (d,N,6 ) 由 式 (1.26) 定义 ，fN 由 式 (1.23) EM ° HE 
说 ， 训 练 误 差 小 的 模型 ， 其 泛 化 误差 也 会 小 。 


以 上 讨论 的 只 是 假设 空间 包含 有 限 个 函数 情况 下 的 汉化 误差 上 界 ， 对 
一 般 的 假设 空间 要 找到 泛 化 误差 界 束 没有 这 么 简单 ， 这 里 不 作 介 绍 。 


1.7 ”生成 模型 与 判别 模型 


监督 学 习 的 任务 束 古 学 习 一 个 模型 ， 应 用 这 一 模型 ， 对 给 定 的 输入 预 
测 相应 的 输出 。 这 个 模型 的 一 般 形 式 为 决策 男 数 : 


Y=f(X) 


或 者 条 件 概率 分 布 : 
P(Y|X) 


监督 学 习 方法 又 可 以 分 为 生成 方法 (generative approach) 和 判别 方法 
(discriminative approach) 。 所 学 到 的 模型 分 别称 为 生成 模型 
(generative model) 和 判别 模型 (discriminative model) 。 


生成 方法 由 数据 学 习 联 合 概率 分 布 P(X,Y)， 然 后 求 出 条 件 概率 分 布 
P(Y|X) 作 为 预测 的 模型 ， 即 生成 模型 


P(X,Y) 
P(X) 


这 样 的 方法 之 所 以 称 为 生成 方法 ， 是 因为 模型 表示 了 给 定 输入 X 产 生 输 
出 Y 的 生成 关系 。 典 型 的 生成 模型 有 : FR DUTT AD Bk RRE 
型 ， 将 在 后 面 章节 进行 相关 讲述 。 


判别 方法 由 数据 直接 学 习 决 策 函 数 f{(X) 或 者 条 件 概率 分 布 P(Y|X) 作 为 预 
测 的 模型 ， 即 判别 模型 。 判 别 方法 关心 的 古 对 给 定 的 输入 X， 应 该 预测 
什么 样 的 输出 Y。 典 型 的 判别 模型 包括 : k 近 邻 法 、 感 知 机 、 决 策 树 、 
逻辑 斯 详 回 归 模 型 、 节 大 炳 模型 、 文 持 癌 量 机 、 提 升 方法 和 条 件 随 机 
场 等 ， 将 在 后 面 章节 讲述 。 


在 监督 学 习 中 ， 生 成 方法 和 判别 方法 各 有 优 缺 点， 适合 于 不 同 条 件 下 
的 学 习 问 题 。 


生成 方法 的 特点 ， 生 成 方法 可 以 还 原 出 联合 概率 分 布 P(X,Y)， 而 判别 
方法 则 不 能 ; 生成 方法 的 学 习 收 敛 速度 更 快 ， 即 当 样本 容量 增加 的 时 
候 ， 学 到 的 模型 可 以 更 快 地 收 伍 于 真实 模型 ， 当 存在 隐 变 量 时 ， 仍 可 
以 用 生成 方法 学 习 ， 此 时 判别 方法 就 不 能 用 。 


判别 方法 的 特点 ;判别 方法 直接 学 习 的 是 条 件 概率 P(Y|X) 或 决策 画 数 
fCX)， 直 接 面 对 预 测 ， 往 往 学 习 的 准确 率 更 高 ， 由 于 直接 学 习 P(Y|X) 或 
f(X)， 可 以 对 数据 进行 各 种 程度 上 的 抽象 、 定 义 特征 并 使 用 特征 ， 因 此 
可 以 简化 学 习 问 题 。 


P(Y X)= 


1.8 “分 类 问题 


分 类 是 监督 学 习 的 一 个 核心 问题 。 在 监督 学 习 中 ， 当 输出 变量 Y 取 有 限 
个 离散 值 时 ， 预 测 问 题 便 成 为 分 类 问题 。 这 时 ， 输 入 变量 X 可 以 是 离散 
的 ， 也 可 以 是 连续 的 。 监 督学 习 从 数据 中 学 习 一 个 分 类 模型 或 分 类 决 
策 函 数 ， 称 为 分 类 器 (classifier) 。 分 类 器 对 新 的 输入 进行 输出 的 预测 
(prediction) ， 称 为 分 类 (classification) 。 可 能 的 输出 称 为 类 
(class) 。 分 类 的 类 别 为 多 个 时 ， 称 为 多 类 分 类 问题 。 本 书 主要 讨论 
二 类 分 类 问题 。 


分 类 问题 包括 学 习 和 分 类 两 个 过 程 。 在 学 习 过 程 中 ， 根 据 已 知 的 训练 
数据 集 利 用 有 效 的 学 习 方 法 学 习 一 个 分 类 名 ， 在 分 类 过 程 中 ， 利 用 学 


习 的 分 类 器 对 新 的 输入 实例 进行 分 类 。 分 类 问题 可 用 图 1.4 描 述 。 图 中 
(X11 ，y1),(X2， 了 2),…,(X NyYN) 古 训练 数据 集 ， 学 习 系 统 由 训练 数据 学 
习 一 个 分 类 器 P(Y|X) 或 Y =X); 分 类 系统 通过 学 到 的 分 类 器 P(Y|X) 或 
Y=f(X) 对 于 新 的 输入 实例 x yi 进行 分 类 ， 即 预测 其 输出 的 类 标记 y yay 


(x, Vy ).(%>.¥> ), u Á XyY y) 


学 习 系 统 模型 


XN+] 


图 1.4 分 类 问题 


评价 分 类 器 性 能 的 指标 一 般 是 分 类 准确 率 (accuracy) ， 其 定义 是 : 对 
于 给 定 的 测试 数据 集 ， 分 类 器 正确 分 类 的 样本 数 与 总 样本 数 之 比 。 也 
e 

1.17 o 
对 于 二 类 分 类 问题 常用 的 评价 指标 是 精确 率 (precision) 与 召回 率 
(recall) 。 通 常 以 关注 的 类 为 正 类 ， 其 他 类 为 负 类 ， 分 类 器 在 测试 数 
据 集 上 的 预测 或 正确 或 不 正确 ，4 种 情况 出 现 的 总 数 分 别 记 作 : 
TP 一 一 将 正 类 预测 为 正 类 数 ; 
FN 一 一 将 正 类 预测 为 负 类 数 ， 
FP 一 一 将 负 类 预测 为 正 类 数 ; 
TN 一 一 将 负 类 预测 为 负 类 数 。 


精确 率 定义 为 


(1.30) 
TP+FP 
各 回 率 定义 为 
a (1.31) 
TP + FN 
此 外 ， 还 有 1F 值 ， 是 精确 率 和 召回 紊 的 调和 均值 ， 即 
Fisk yh (1.32) 
F P R 
atA (1.33) 


-= 

2TP + FP + FN 
精确 率 和 召回 率 都 高 时 ，F ] AERA ° 
许多 统计 学 习 方 法 可 以 用 于 分 类 ， 包 括 k 近 邻 法 、 感 知 机 、 朴 素 贝 叶 斯 


法 、 决 策 桂 、 决 策 列表 、 钦 辑 斯 谤 回归 模型 、 支 持 向 量 机 、 提 升 广 
法 、 贝 叶 斯 网 络 、 神 经 网 络 、Winnow 等 。 本 书 将 讲述 其 中 一 些 主要 广 
法 。 


分 类 在 于 根据 其 特性 将 数据 “分 门 别 类 >， 所 以 在 许多 领域 都 有 广泛 的 
应 用 。 例 如 ， 在 银行 业务 中 ， 可 以 构建 一 个 客户 分 类 模型 ， 对 客户 按 
照 贷 款 风 险 的 大 小 进行 分 类 ; 在 网 络 安全 领域 ， 可 以 利用 日 志 数 据 的 
分 类 对 非法 入 侵 进 行 检 测 ;， 在 图 像 处 理 中 ， 分 类 可 以 用 来 检测 图 像 中 
征 否 有 人 脸 出 现在 手写 识别 中 ， 分 类 可 以 用 于 识别 手写 的 数字 ; 在 
互联 网 搜索 中 ， 网 页 的 分 类 可 以 帮助 网 页 的 抓 取 、 索 引 与 排序 。 


举 一 个 分 类 应 用 的 例子 一 一 文本 分 类 (text classification)。 这 里 的 文本 可 
以 是 新 闻 报 道 、 网 页 、 电 子 邮 件 、 学 术 论 文 等 。 类 别 往往 是 天 于 文本 
内 容 的 ， 例 如 政治 、 经 济 、 体 育 等 ， 也 有 关于 文本 特点 的 ， 如 正面 意 
见 、 反 面 意 见 ， 还 可 以 根据 应 用 确定 ， 如 世 圾 邮件 、 非 垃圾 邮件 等 。 
文本 分 类 是 根据 文本 的 特征 将 其 划分 到 已 有 的 类 中 。 输 入 是 文本 的 特 
征 回 量 ， 输 出 是 文本 的 类 别 。 通 党 把 文本 中 的 单词 定义 为 特征 ， 每 个 
单词 对 应 一 个 特征 。 单 词 的 特征 可 以 是 二 值 的 ， 如 果 单 词 在 文本 中 出 
现 则 取 值 是 1， 否 则 是 0; 也 可 以 是 多 值 时 ， 表 示 单 词 在 文本 中 出 现 的 


频率 。 EWH, 如 果 “ 股 票 ”*“ 银 行 * 货 币 ” 这 些 词 出 现 很 多 ， 这 个 文本 可 
能 属 于 经 济 类 ， 如 果 “ 网 球 ”“ 比 赛 ”* 运 动员 ”这 些 词 频繁 出 现 ， 这 个 文本 
可 能 属于 体育 类 $ 


1.9 ”标注 问题 


标注 (tagging) 也 是 一 个 监督 学 习 问 题 。 可 以 认为 标注 问题 是 分 类 问 
题 的 一 个 推广 ， 标 注 问题 义 是 更 复杂 的 结构 预测 (structure prediction) 
问题 的 简单 形式 。 标 注 问 题 的 输入 是 一 个 观测 序列 ， 输 出 是 一 个 标记 
序列 或 状态 序列 。 标 注 问 题 的 目标 在 于 学 习 一 个 模型 ， 使 它 能 够 对 观 
测序 列 给 出 标记 序列 作为 预测 。 注 意 ， 可 能 的 标记 个 数 是 有 限 的 ， 但 
其 组 合 所 成 的 标记 序列 的 个 数 是 依 序 列 长 度 呈 指 数 级 增长 的 。 


标注 问题 分 为 学 习 和 标注 两 个 过 程 (如 图 1.5 所 示 ) 。 首先 给 定 一 个 训 
练 数 据 集 


T = (%1 y1) 23 V2) (Xp Yn )} 


(2) 


RE on = Gh 7 xO ,…,X")”，i==1,2,.…,N， 是 输入 观测 序列 ， 
y, =(y, yO, yO E 是 相应 的 输出 标记 序列 ，n 是 序列 的 长 度 ， 


对 不 同样 本 可 以 有 不 同 的 值 。 学 习 系统 基于 训练 数据 集 构建 一 个 模 
型 ， 表 示 为 条 件 概率 分 布 : 


P(Y YY ss yM |X, XO sea, XM) 


这 里 ， 每 一 个 X" (i=1,2,.….,n) 取 值 为 所 有 可 能 的 观测 ， 每 一 个 Ye (i 
=1,2,...n) 取 值 为 所 有 可 能 的 标记 ， 一 般 n= N。 标 注 系统 按照 学 习 得 


到 的 条 件 概率 分 布 模型 ， 对 新 的 答 入 观测 序列 找到 相应 的 输出 标记 序 
列 。 具 体 地 ， 对 一 个 观测 序列 xv， = = Gre 找到 使 条 件 
概率 Pass Yeats “Ne a) Give x D “axe hy REFS 


: _ "w 
Yyu — Ge N41? ee > Yn 


(x, y] ).(%>.¥> ),° (XN) N ) 


Xy 


l ECR £ 
一 一 | 标注 系统 


图 1.5 标注 问题 


评价 标注 模型 的 指标 与 评价 分 类 模型 的 指标 一 样 ， 党 用 的 有 标注 准确 
率 、 精 确 率 和 召回 率 。 其 定义 与 分 类 模型 相同 。 


标注 常用 的 统计 学 习 方 法 有 : 隐 马 尔 可 夫 模 型 、 条 件 随 机 场 。 


标注 问题 在 信息 抽取 、 目 然 语 言 处 理 等 领域 被 广泛 应 用 ， 是 这 些 领 域 
的 基本 问题 。 例 如 ， 自 然 语 言 处 理 中 的 词性 标注 (part of speech 
tagging) 就 是 一 个 典型 的 标注 问题 ， 给 定 一 个 由 单词 组 成 的 句子 ， 对 
这 个 句子 中 的 每 一 个 单词 进行 词性 标注 ， 即 对 一 个 单词 序列 预测 其 对 
应 的 词性 标记 序列 。 


举 一 个 信息 抽取 的 例子 。 从 英文 文章 中 抽取 基本 名 词 短语 (base noun 
phrase) 。 为 此 ， 要 对 文章 进行 标注 。 英 文 单词 是 一 个 观测 ， 英 文句 子 
是 一 个 观测 序列 ， 标 记 表 示 名 词 短语 的 “< 开始"、“ 结 束 ”* 或 “其 他 ” (分 别 
LIB, E, ORI) ， 标 记 序 列表 示 英 文句 子 中 基本 名 词 短语 的 所 在 位 
置 。 信 息 抽取 时 ， 将 标记 “开始 ”到 标 ie“ 结 束 ” 的 单词 作为 名 词 短 语 。 例 
如 ， 给 出 以 下 的 观测 序列 ， 即 英文 句子 ， 标 注 系 统 产 生 相 应 的 标记 序 
列 ， 即 给 出 句子 中 的 基本 名 词 短语 。 


输入 : At Microsoft Research,we have an insatiable curiosity and the desire 
to create new technology that will help define the computing experience ° 


输出 : At/O Microsoft/B Research/E,we/O have/O an/O insatiable/B 
curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O 
will/O help/O define/O the/O computing/B experience/E ° 


1.10 ”回归 问题 


回归 (regression) 是 监督 学 习 的 另 一 个 重要 问题 。 回 归 用 于 预测 输入 
变量 〈 自 变量 ) 和 输出 变量 〈 因 变量 ) 之 间 的 关系 ， 特 别 是 当 输入 变 
量 的 值 发 生变 化 时 ， 输 出 变量 的 值 随 之 发 生 的 变化 。 回 归 模 型 正 是 表 
示 从 输入 变量 到 输出 变量 之 间 映 射 的 函数 。 回 归 问 题 的 学 习 等 价 于 男 
数 拟 合 选择 一 条 函数 曲线 使 其 很 好 地 拟 合 已 知 数 据 且 很 好 地 预测 未 
知 数据 (参照 1.4.2 节 ) 。 


回归 问题 分 为 学 习 和 预测 两 个 过 程 (如 图 1.6 所 示 ) 。 首 先 给 定 一 个 训 
练 数据 集 : 


T = {(x, y, ), (x, > Yə ), ee, (x. : hy ) i 


(X11) X22) (XN YN) 


Xy +I 


预测 系统 


图 1.6 ”回归 问题 


这 里 ，x;eR' 是 输入 ，yeR 是 对 应 的 输出 ，i= 1,2,...,N。 学 习 系 统 基 于 
训练 数据 构建 一 个 模型 ， 即 画 数 Y=f(X)， 对 新 的 输入 x nN.; ， 预 测 系统 
根据 学 习 的 模型 Y=f(X) 确 定 相 应 的 输出 yn,1。 


回归 问题 按照 输入 变量 的 个 数 ， 分 为 一 元 回归 和 多 元 回归 ; 按照 输入 
人 分 为 线性 回归 和 非 线 
J jE o 


回归 学 习 最 常用 的 损失 函数 是 平方 损失 画 数 ， 在 此 情况 下 ， 回 归 问 题 
可 以 由 著名 的 最 小 二 乘法 (least squares) 求解 。 


许多 领域 的 任务 都 可 以 形式 化 为 回归 问题 ， 比 如 ， 回 归 可 以 用 于 商务 
领域 ， 作 为 市 场 趋势 预测 、 产 品质 量 管理 、 客 户 满意 度 调 查 、 投 资 以 
险 分 析 的 工具 。 作 为 例子 ， 人 简单 介绍 股价 预测 问题 。 假 设 知道 菜 一 公 
司 在 过 去 不 同时 间 点 比如， 每天) 的 市 场 上 的 股票 价格 〈 比 如 ， 股 
票 平均 价格 ) ， 以 及 在 各 个 时 间 点 之 前 可 能 影响 该 公司 股价 的 信息 

(比如 ， 该 公司 前 一 周 的 营业 额 、 利 润 )。 目 标 是 从 过 去 的 数据 学 习 
一 个 模型 ， 使 它 可 以 基于 当前 的 信息 预测 该 公司 下 一 个 时 间 点 的 股票 
价格 。 可 以 将 这 个 问题 作为 回归 问题 解决 。 具 体 地 ， 将 影响 股价 的 信 
息 视 为 自 变 量 (输入 的 特征 ) ， 而 将 股价 视 为 因 变量 (输出 的 值 )。 
将 过 去 的 数据 作为 训练 数据 ， 束 可 以 学 习 一 个 回归 模型 ， 并 对 未 来 的 
股价 进行 预测 。 可 以 看 出 这 是 一 个 困难 的 预测 问题 ， 因 为 影响 股价 的 
因素 非常 多 ， 我 们 未 必 能 判断 到 哪些 信息 (输入 的 特征 ) 有 用 并 能 得 


到 这 些 信息 。 
本 章 概要 


1.， 统 计 学 习 是 关于 计算 机 基于 数据 构建 概率 统计 模型 并 运用 模型 对 数 
据 进 行 分 析 与 预测 的 一 门 学 科 。 统 计 学 习 包括 监督 学 习 、 非 监督 学 
习 、 半 监督 学 习 和 强化 学 习 。 


2. 统计 学 习 方 法 二 要 素 一 一 模型 、 寅 上 略 、 算 法 ， 对 理解 统计 学 习 方 法 
起 到 提纲 者 领 的 作用 。 


3， 本 书 主要 讨论 监督 学 习 ， 监 督学 习 可 以 概括 如 下 ， 从 给 定 有 限 的 训 
练 数据 出 发 ， 假 设 数 据 是 独立 同 分 布 的 ， 而 且 假 设 模型 属于 某 个 假设 
空间 ， 应 用 某 一 评价 准则 ， 从 假设 空间 中 选取 一 个 最 优 的 模型 ， 使 它 
oF NERS AE EE OTHE FATE 
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4. 统计 学 习 中 ， 进 行 模型 选择 或 者 说 提高 学 习 的 泛 化 能 力 是 一 个 重要 
问题 。 如 采 只 考虑 减少 训练 误差 ， 束 可 能 产生 过 拟 合 现象 。 模 型 选择 
的 方法 有 正则 化 与 交叉 验证 。 学 习 方 法 泛 化 能 力 的 分 析 是 统计 学 习 理 
WARMER 
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5; 
介绍 的 统计 学 习 方 法 包括 感知 机 、k 近邻 法 、 朴 素 贝 叶 斯 法 、 决 策 树 、 
PEATE [YF Sj RARE > SCRA RL > HEFT AT IZ > EME ` BES 


尔 可 夫 模 型 和 条 件 随 机 场 。 这 些 方法 是 主要 的 分 类 、 标 注 以 及 回归 方 
法 。 它 们 又 可 以 归 类 为 生成 方法 与 判别 方法 。 


继续 阅读 
关于 统计 学 习 方法 一 般 介 绍 的 书籍 可 以 参阅 文献 [1~4]。 
习题 
1.1 说 明 伯 努 利 模型 的 极 大 似 然 估 计 以 及 贝 叶 斯 佑 计 中 的 统计 学 习 方 
法 二 要 素 。 伯 努 利 模型 是 定义 在 取 值 为 0 与 1 的 随机 变量 上 的 概率 分 
布 。 假 设 观测 到 伯 努 利 模型 n 次 独立 的 数据 生成 结果 ， 其 中 k 次 的 结果 
为 1， 这 时 可 以 用 极 大 似 然 估计 或 贝 叶 斯 估计 来 估计 结果 为 1 的 概率 。 


1.2 ”通过 经 给 风 险 最 小 化 推导 极 大 似 然 信 计 。 证 明 模 型 是 条 件 概 率 分 
布 ， 当 损失 函数 是 对 数 损失 函数 时 ， 经 验 风 险 最 小 化 等 价 于 极 大 似 然 


估计 。 
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第 2 章 ”感知 机 


感知 机 (perceptron) 是 二 类 分 类 的 线性 分 类 模型 ， 其 输入 为 实例 的 特 
征 向 量 ， 输 出 为 实例 的 类 别 ， 取 +1 和 -1 二 值 。 感 知 机 对 应 于 输入 空间 
(特征 空间 ) 中 将 实例 划分 为 正 负 两 类 的 分 离 超 平面 ， 属 于 判别 模 
型 。 感 知 机 学 习 旨 在 求 出 将 训练 数据 进行 线性 划分 的 分 离 超 平面 ， 为 
此 ， 导 入 基于 误 分 类 的 损失 函数 ， 利 用 梯度 下 降 法 对 损失 函数 进行 极 

小 化 ， 求 得 感知 机 模型 。 感 知 机 学 习 算法 具有 简单 而 易于 实现 的 优 
点 ， 分 为 原始 形式 和 对 侦 形 式 。 感 知 机 预测 是 用 学 习 得 到 的 感知 机 模 
型 对 新 的 输入 实例 进行 分 类 。 感 知 机 1957 年 由 Rosenblatt 提 出 ， 是 神经 
网 络 与 支持 向 量 机 的 基础 。 


本 章 首先 介绍 感知 机 模型 ， 然 后 用 述 感知 机 的 学 习 策 略 ， 特 别 是 损失 
函数 ， 最 后 介绍 感知 机 学 习 算 法 ， 包 括 原始 形式 和 对 偶 形 式 ， 并 证 明 
算法 的 收敛 性 。 


2.1 感知 机 模型 


定义 2.1 (感知 机 ) 假设 输入 空间 (特征 空间 ) 是 x<cR"， 输 出 空间 

EY 二 {+1,-1}。 输 入 xex 表 示 实 例 的 特征 向 量 ， 对 应 于 输入 空间 (特征 

a 输出 ysy 表示 实例 的 类 别 。 由 输入 空间 到 输出 空间 的 如 
EK 


f(x) =sign(w-x +b) PAY 


称 为 感知 机 。 其 中 ，w 和 Pb 为 感知 机 模型 参数 ，wEeR URE 
(weight) 或 权 值 向 量 (weight vector) ，beR 叫 作 偏 置 (bias) , wx 
表示 w 和 x 的 内 积 。sign 是 人 符号 函数 ， 即 


+1, x2Q 
S yi = 

| at 
感知 机 是 一 种 线性 分 类 模型 ， 属 于 判别 模型 。 感 知 机 模型 的 假设 空间 


是 定义 在 特征 空间 中 的 所 有 线性 分 类 模型 (linear classification model) 
或 线性 分 类 器 (linear classifiem ， 即 函数 集合 {ffGCo =w-xtb} ° 


感知 机 有 如 下 几何 解释 : 线性 方程 

wex+b=0 (2.3) 
对 应 于 特征 空间 R' 中 的 一 个 超 平面 $9， 其 中 w 是 超 平面 的 法 同 量 ,，b 是 
超 平 面 的 截 距 。 这 个 超 平 面 将 特征 空间 划分 为 两 个 部 分 。 位 于 两 部 分 
的 点 (特征 向 量 ) 分 别 被 分 为 正 、 负 两 类 。 因 此 ， 超 平面 S 称 为 分 离 超 
平面 (separating hyperplane) ， 如 图 2.1 所 示 。 


x1) 


图 2.1 感知 机 模型 
感知 机 学 习 ， 由 训练 数据 集 (实例 的 特征 向 量 及 类 别 |) 


T= { (x, Yi ), (x, > V2 ), ‘ian (Xx Yn )} 


其 中 ，xiex=R"，yieD 二 {+1,-1}， i 二 1,2,.…,N， 求 得 感知 机 模型 
(2.1) ， 即 求 得 模型 参数 w,b。 感 知 机 预测 ， 通 过 学 习 得 到 的 感知 机 模 
型 ， 对 于 新 的 输入 实例 给 出 其 对 应 的 输出 类 别 。 


2.2 感知 机 学 习 策 略 
2.2.1 ”数据 集 的 线性 可 分 性 


定义 2.2 (数据 集 的 线性 可 分 性 ) 。 给 定 一 个 数据 集 
F = {(x, WY, ), (x, k y, ), e, (Xy Vy )} 


HH, x,ex=R", yEy ={+l-1}，i=12,...,N， 如 果 存 在 某 个 超 平 
HIS 


wex+b=0 


能 够 将 数据 集 的 正 实例 点 和 负 实 例 点 完全 正确 地 划分 到 超 平 面 的 两 

侧 ， 即 对 所 有 yi =+1 的 实例 1， 有 wx;+b>0， 对 所 有 y; = -1 的 实例 1， 有 
wxi+b<0， 则 称 数据 集 T 为 线性 可 分 数据 集 (linearly separable data 

set) ; 否则 ， 称 数据 集 T 线 性 不 可 分 。 


2.2.2 ”感知 机 学 习 策 略 


假设 训练 数据 集 是 线性 可 分 的 ， 感 知 机 学 习 的 目标 是 求 得 一 个 能 够 将 
训练 集 正 实例 点 和 负 实 例 点 完全 正确 分 开 的 分 离 超 平面 。 为 了 找 出 这 
样 的 超 平 面 ， 即 确定 感知 机 模型 参数 wb， 需 要 确定 一 个 学 习 策 略 ， 即 
定义 (经验) 损失 函数 并 将 损失 函数 极 小 化 。 


损失 函数 的 一 个 目 然 选择 羡 误 分 类 点 的 总 数 。 但 是 ， 这 样 的 损失 函数 
不 是 参数 wb 的 连续 可 寻 函 数 ， 不 易 优 化 。 损 失 男 数 的 另 一 个 选择 是 误 
分 类 点 到 超 平面 的 总 距离 ， 这 是 感知 机 所 采用 的 。 为 此 ， 首 先 写 出 输 
入 空间 R' 中 任 一 点 xo 到 超 平面 的 距离 : 


] 
——|wex, +5| 


[w 


这 里 ,|lwl| 是 w 的 L , 范 数 。 


其 次 ， 对 于 误 分 类 的 数据 (xi yo) 来 说 ， 


—y.(wex, +b)>0 


成 立 。 因 为 当 w'Xi+b>0 时 ，yi 三 -1， 而 当 w'xi+b<0 时 ，yi=+1。 
此 ， 误 分 类 点 xi 到 超 平面 S 的 距离 是 


l 
-z y,(wex, +b) 


[wi 


这 样 ， 假 设 超 平面 $ 的 误 分 类 点 集合 为 M， 那 么 所 有 误 分 类 点 到 超 乎 面 
S 的 总 距离 为 


y,(wex, +b) 


|w || sen 
不 考虑 ， 怠 得 到 感知 机 学 习 的 损失 函数 中 。 
给 定 训练 数据 集 
T ={(x,, y,); (os Yoda" Sy Vw} 
其 中 , x ex=R', y,ey ={41,-1}, i=1,2,...,.N ° AML sign(w-x+b) 
学 习 的 损失 函数 定义 为 
L(w,b)=— 2. y,(wex, +b) (2.4) 


x eM 


其 中 M 为 误 分 类 点 的 集合 。 这 个 损失 画 数 就 是 感知 机 学 习 的 经 验 风险 
KA o 


IA, MAKSILO bET AI e WRA RTR, TRUE E 
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小 。 一 个 特定 的 样本 点 的 损失 函数 : 在 误 分 类 时 是 参数 wb 的 线性 函 
数 ， 在 正确 分 类 时 是 0。 因 此 ， 给 定 训练 数据 集 T， 损 失范 数 L(w,b) 古 
Ww,b 的 连续 可 导 函 数 。 


感知 机 学 习 的 策略 是 在 假设 空间 中 选取 使 损失 函数 式 (2.4) 最 小 的 模 
型 参数 wb， 即 感知 机 模型 。 


2.3 ”感知 机 学 习 算 法 


感知 机 学 习 问 题 转化 为 求解 损失 函数 式 (2.4) 的 最 优化 问题 ， 最 优化 
的 方法 是 随机 梯度 下 降 法 。 本 市 叙述 感知 机 学 习 的 具体 算法 ， 包 括 原 
e 并 证 明 在 训练 数据 线性 可 分 条 件 下 感知 机 学 习 算 
法 的 收敛 性 。 


2.3.1 感知 机 学 习 算法 的 原始 形式 
感知 机 学 习 算法 是 对 以 下 最 优化 问题 的 算法 。 给 定 一 个 训练 数据 集 


T = {05 0) E2) EY) 


EH x,e€x=R", y,ey ={-11}，i=12,...,N， 求 参数 wb， 使 其 为 
以 下 损失 函数 极 小 化 问题 的 解 


i W = 一 ) le 7 
min L(w,b) >) y,(wex, +b) (2.5) 


TEM 
其 中 M 为 误 分 类 点 的 集合 。 


感知 机 学 习 算 法 是 误 分 类 驱动 的 ， 具 体 采 用 随机 梯度 下 降 法 

(stochastic gradient descent) 。 首 先 ， 任 意 选取 一 个 超 平面 ,wo0,bo， 然 
后 用 梯度 下 降 法 不 断 地 极 小 化 目标 函数 (2.5) 。 极 小 化 过 程 中 不 是 一 
次 使 M 中 所 有 误 分 类 点 的 梯度 下 降 ， 而 是 一 次 随机 选取 一 个 误 分 类 点 
使 其 梯度 下 降 。 
假设 误 分 类 点 集合 M 是 固定 的 ， 那 么 损失 函数 L(wb) 的 梯度 由 


V ,ZL(wp) = 一 3 yx; 
eM 


V,L(w,b)=-> y, 


x eM 
给 出 。 


随机 选取 一 个 误 分 类 点 (Xx; ，yi)， 对 wb 进行 更 新 : 


W< Wt+7y.X, (2.6) 


b<b+ny, (2.7) 
RPN (0<7 <1) 是 步 长 ， 在 统计 学 习 中 又 称 为 学 习 率 (learning rate) ° 
这 样 ， 通 过 迭代 可 以 期 待 损失 函数 L(wb) 不 断 减 小 ， 直 到 为 0。 综 上 所 
述 ， 得 到 如 下 算法 : 
算法 2.1 (感知 机 学 习 算 法 的 原始 形式 ) 


输入 : 训练 数据 集 T= {(x | ，y1),(X2,y 5),.…,(XNyyN)}， 其 中 x; ex=R’ 
，yiEy ={-1,41}, i 二 1,2,...,N; 学 习 率 11 (0<77 <1); 


输出 : wb; 感知 机 模型 ftx) = sign(w-xtb) ° 
(1) 选取 初 值 w 0,bo 

(2) 在 训练 集中 选取 数据 (xi yi) 

(3) 如 果 yi (wxi;+b)<0 


we wtny,x, 


b<b+ny, 
(4) RE (2) ， 直 至 训练 集中 没有 误 分 类 点 。 


这 种 学 习 算 法 直观 上 有 如 下 解释 : 当 一 个 实例 点 被 误 分 类 ， 即 位 于 分 
离 超 平面 的 错误 一 侧 时 ， 则 调整 wb 的 值 ， 使 分 离 超 平面 向 该 误 分 类 点 
的 一 侧 移动 ， 以 减少 该 误 分 类 点 与 超 乎 面 间 的 距离 ， 直 人 至 超 乎 面 越过 
该 误 分 类 点 使 其 被 正确 分 类 。 


算法 2.1 是 感知 机 学 习 的 基本 算法 ， 对 应 于 后 面 的 对 偶 形 式 ， 称 为 原始 
形式 。 感 知 机 学 习 算法 简单 旦 易于 实现 。 


例 2.1 ”如 图 2.2 所 示 的 训练 数据 集 ， 其 正 实例 点 是 x 1 =(3,3)"，x， = 
(4.3)7， 负 实例 点 是 xs =(1,1)"， 试 用 感知 机 学 习 算法 的 原始 形式 求 感 


知 机 模型 f(x) = sign(w.x+b)。 这 里 ，w=(wo,wo)Jz，Xx=(xXu,xo)r。 


2xD+x2) 一 S=0 


图 2.2 ”感知 机 示例 
解 ” 构 建 最 优化 问题 : 
min L(w,p)=— 2: y(wex+b) 


seu 
按照 算法 2.1 求 解 wb。77 =1° 
(1) 取 初 值 wo =0，by =0 
(2) 对 x1 =(3,3)5，yi(woxi+bo)=0， 未 能 被 正确 分 类 ， 更 新 wb 
w=wt+y,x, =(3,3)'s 5 =b+y,=1 
得 到 线性 模型 


w*X+b =3x" +3x" +1 


(3) 对 x1x,， 显 然 ，yi(w1'xi+b1i)>0， 被 正确 分 类 ， 不 修改 wb; 对 
x3 =(1107，y3s(wixa+b1)<0， 被 误 分 类 ， 更 新 wb。 


W, =W,+y3;X; =(2,2)', b, =b,+y,=0 
得 到 线性 模型 
w, x+b, =2x" 42x 
如 此 继续 下 去 ， 直 到 
w,=(1,1)', b, =-3 


1 2) 
D x! PTA 


w,-x+b,=x 
对 所 有 数据 点 yi;(w yxi+b7y)>0， 没 有 误 分 类 点 ， 损 失 画 数 达 到 极 小 。 
分 离 超 平面 为 xw+xo-3=0 
感知 机 模型 为 fx) = sign(x © +x 2-3) 
迭代 过 程 见 表 2.1。 


22.1 PARRA 


patil 


TEAR EL 误 分 类 点 w b wex+b 
0 0 0 0 
| x, (3.3) l 3x + 3x +1 
2 x, (2,2) 0 2x") + 2x 
3 x, (1,1)' | yi +x l 
4 > (0,0)" 2 -2 
5 X, (3,3)' | 3x + 3x 一 ] 
6 x, (2,2) 2 2x" + 2x) 一 2 
7 x, (1,1) 3 x +x! 3 
8 0 (1,1) 3 3 


这 是 在 计算 中 误 分 类 点 先后 取 x 1 ,xX 3,X3,X3,X1,;X3,X3 得 到 的 分 离 超 平 
面 和 感知 机 模型 。 如 果 在 计算 中 误 分 类 点 依次 取 x 19% 3X 3,X3,X%9,X3,X3 
X3X1X3X3， 那 么 得 到 的 分 离 超 平面 是 xze+xo-5=0。 


可 见 ， 感 知 机 学 习 算法 由 于 采用 不 同 的 初 值 或 选取 不 同 的 误 分 类 点 ， 
解 可 以 不 同 。 


2.3.2 ”算法 的 收敛 性 


现在 证 明 ， 对 于 线性 可 分 数据 集 感知 机 学 习 算 法 原始 形式 收敛 ， 即 经 
过 有 限 次 人 迭代 可 以 得 到 一 个 将 训练 数据 集 完 全 正确 划分 的 分 离 超 平 面 
及 感知 机 模型 。 

为 了 便于 儿 述 与 推导 ， 将 偏 置 b 并 入 权重 向 量 w， 记 作 Ww =(w",b)", W 
样 也 将 输入 向 量 加 以 扩充 ， 加 进 常 数 1， 记 作对 二 (x ,1)'。 这 样 ，% eR 
"m, Wy ER ° EA, yee =wxtb ° 

定理 2.1 (Novikoff) 设 训练 数据 集 T= {(K 1, ¥1)(Ko, Yo)s--(X Noy 
N)} 是 线性 可 分 的 ， 其 中 xi ex=R", yEy ={-1,+1}, i1=1,2,...,N, W 


(1) 存在 满足 条 件 |Ww op ll = LVEF LW ope =woptxrb op = OFFI 
数据 集 完全 正确 分 开 ; BEENY >0, WATAI=1,2,....N 


Vi ( Wort J x, ) z Jı ( Wont y Xi * Ges ) > Y (2.8) 


(2) 令 R= maxi], MRANA EVR R ENR K 
k 满 足 不 等 式 


k < 人 2 (2.9) 
y 


证 明 (1) 由 于 训练 数据 集 是 线性 可 分 的 ， 按 照 定义 2.2， 存 在 超 平 
面 可 将 训练 数据 集 完 全 正确 分 开 ， 取 此 超 平面 为 证 ww 多 =wwtxtb opt 
=0， 使 网 will=1。 由 于 对 有 限 的 i= 1.2,..,N， 均 有 


Yi (Wap S Š ) = Vi ( Woot s X; + Dore ) = 0 


所 以 存在 


i inia ; - t 
y= min{y;(w x, +b,,)} 


opt 0 


使 


Y; (Wope . x) =F; i “xX; + bn ) > Y 


(2) 感知 机 算法 从 Wo=0 开 始 ， 如 果实 例 被 误 分 类 ， 则 更 新 权重 。 令 
惫 kL1 肪 第 k 个 误 分 类 实例 之 前 的 扩充 权重 向 量 ， 即 


Wey PAW 
则 第 k 个 误 分 类 实例 的 条 件 是 
Via i) = y (Wae +B.) 0 (2.10) 
Hx, y EBD, = (wW b, 并 误 分 类 的 数据 ， 则 w 和 b 的 更 新 是 


W, —W,_, + YX; 


b, &— b, +My, 


BH 
W, = W, + yx (2.11) 
下 面 推导 两 个 不 等 式 .: 
(1) 
Wy Wo Z kny (2.12) 


由 式 (2.11) 及 式 (2.8) 得 


Wy * Wopt = Wy? Wop + 1Y: Wopt ° X; 


= Wii ï Wop T 7 y 
由 此 递 推 即 得 不 等 式 (2.12) 


vew Sọ ew >Ñ, eÑ Ss 
Wy * Woo = Whip Wn FOY WW + 2 È- > kny 


(2) 
pi, < kR (2.13) 
由 式 (2.11) 及 式 (2.10) 得 


~ 2 ~ 2 A A 2 ~ 2 
|, IF = + 2y Ma -%, +777 le 
了 


~ 2 2 IPA 12 
<ar 


A 2 六 wn? 
= DAR) +y R 
EEr a 
< kn? R? 


结合 不 等 式 (2.12) KA (2.13) 即 得 


= | Wy_» 


ky <i, ig, < | [ig] VER 


opt 


REFER, TRO RAB EA LAA, HIA RRR ARRI 
练 数据 完全 正确 分 开 的 分 离 超 平面 。 也 就 是 说 ， 当 训练 数据 集 线 性 可 
分 时 ， 感 知 机 学 习 算法 原始 形式 迷 代 苹 收 全 的。 但 是 例 2.1 说 明 ， 感 知 


机 学 习 算法 存在 许多 解 ， 这 些 解 既 依 赖 于 初 值 的 选择 ， 也 依赖 于 友 代 
过 程 中 误 分 类 点 的 选择 顺序 。 为 了 得 到 唯一 的 超 平面 ， 需 要 对 分 离 超 
平面 增加 约束 条 件 。 这 就 是 第 7 章 将 要 讲述 的 线性 文 持 向 量 机 的 想法 。 
当 训练 集 线 性 不 可 分 时 ， 感 知 机 学 习 算法 不 收 公 ， 迭 代 结 采 会 发 生 震 


He 


DZ 


2.3.3 ”感知 机 学 习 算法 的 对 偶 形式 


现在 考虑 感知 机 学 习 算 法 的 对 偶 形 式 。 感 知 机 学 习 算 法 的 原始 形式 和 
对 侦 形 式 与 第 7 章 中 支持 向 量 机 学 习 算 法 的 原始 形式 和 对 侦 形 式 相 对 


Rie 
对 偶 形 式 的 基本 想法 和 站， 将 w 和 b 表 示 为 实例 xi 和 标记 yi 的 线性 组 合 的 


形式 ， 通 过 求解 其 系数 而 求 得 w 和 b“。 不 失 一 般 性 ， 在 算法 2.1 中 可 假设 
初始 值 w obo 均 为 0。 对 误 分 类 点 (x;，yi) 通过 


WE w+Ny;X; 
b<b+ny, 
逐步 修改 wb， 设 修改 n 次 ， 则 wb 关于 (xi yi) 的 增 量 分 别 是 aiyixi 


和 aiyi， 这 里 ai =n;77。 这 样 ， 从 学 习 过 程 不 难看 出 ， 最 后 学 习 到 的 
wb 可 以 分 别 表示 为 


N 
w=) ay x, (2.14) 
i=l 


; 
b=) ay, (2.15) 
i=] 


XE, a,>0, i=1,2,...N, 47 =1 时 ， 表 示 第 i 个 实例 点 由 于 误 分 而 进 
行 更 新 的 次 数 。 实例 点 更 新 次 数 越 多 ， 意 味 着 它 距 离 分 离 超 平 面 越 
也 束 越 难 正确 分 类 。 换 名 话说， 这样 的 实例 对 学 习 结果 影响 最 


下 面 对 照 原始 形式 来 叙述 感知 机 学 习 算 法 的 对 偶 形 式 。 
算法 2.2 〈 感 知 机 学 习 算法 的 对 偶 形式 ) 


输入 : 线性 可 分 的 数据 集 T={(x1 ,yy1)(X，，y2),.….,(XN;yN)}， 其 中 x 
ER", y, €{-1,41}, i 二 1,2,...,N ; 学 习 率 1 (0<7] <1) ; 


输出 :ab; 感知 机 模型 /oo -sm| 立 cx 


其 中 a=(a1,a2,...,aN)” 
(1) a-0, b-0 
(2) 在 训练 集中 选取 数据 (x; y:i) 


(3) 如 果 y Lay “Xx, +6) <0 
a, a, +n 
b<—b+ny, 
(4) 转 至 (2) 直到 没有 误 分 类 数据 。 
对 偶 形 式 中 训练 实例 仅 以 内 积 的 形式 出 现 。 为 了 方便 ， 可 以 预先 将 训 


练 集中 实例 间 的 内 积 计 算出 来 并 以 矩阵 的 形式 存储 ， 这 个 矩阵 束 是 所 
谓 的 Gram 和 矩阵 (Gram matrix) 


例 2.2 ”数据 同 例 2.1， 正 样本 点 是 xl =(3,3)"，x2 =(4,3)"， 负 样本 点 
是 xs =(1,1)"， 试 用 感知 机 学 习 算法 对 偶 形式 求 感知 机 模型 。 


解 ”按照 算 法 2.2， 
(1) 取 a; =0, i=1,2,3, b=0, 7 =1 


(2) it Grami kE 


18 21 6 
G=|21 25 7 
5 T 2 


(3) 误 分 条 件 


N 
) ; z < 
[Zass sb) 0 
j=l 


参数 更 新 

aea tl: bob+y 
(4) 和 迭代。 过 程 从 略 ， 结 果 列 于 表 2.2。 
(5) 

w= 2x, + Ox, -5x = (1,1)" 


TE 
分 离 超 平面 
x +x -3=0 
感知 机 模型 


(xz)=sign(xo + x© —3) 
22.2 PAZ 2RBNIARWE 


k 0 l 2 3 4 5 

Ñ bA Xx, x, 
a, 0 | | l 2 2 
a, 0 0 0 0 0 0 
a, 0 0 l 2 2 3 
b 0 | 0 | 0 3 


k O Vig 


| 
N 


Ww oOonNnNngjs 


| 
w 


对 照例 2.1， 结 采 一 致 ， 迭 代步 又 也 是 互相 对 应 的 。 
与 原始 形式 一 样 ， 感 知 机 学 习 算 法 的 对 偶 形 式 迭 代 是 收敛 的 ， 存 在 多 


个 解 。 

本 章 概要 
人 二 类 分 类 的 线性 分 类 
A 


f(x) =sign(w-x +b) 
感知 机 模型 对 应 于 输入 空间 (特征 空间 ) 中 的 分 离 超 平面 wx+b=0。 
2. 感知 机 学 习 的 策略 是 极 小 化 损失 函数 : 
min L(w,b) = — > yi(w-x, +b) 


TiEAT 


损失 函数 对 应 于 误 分 类 点 到 分 离 超 平面 的 总 距离 。 


3. 感知 机 学 习 算 法 是 基于 随机 梯度 下 降 法 的 对 损失 函数 的 最 优化 算 
法 ， 有 原始 形式 和 对 偶 形 式 。 算 法 简单 且 易 于 实现 。 原 始 形 式 中 ， 首 
先 任意 选取 一 个 超 平面 ， 然 后 用 梯度 下 降 法 不 断 极 小 化 目标 函数 。 在 
这 个 过 程 中 一 次 随机 选取 一 个 误 分 类 点 使 其 梯度 下 降 。 


4. 当 训练 数据 集 线 性 可 分 时 ， 感 知 机 学 习 算 法 是 收敛 的 。 感 知 机 算法 
在 训练 数据 集 上 的 误 分 类 次 数 k 满 足 不 等 式 : 


当 训 练 数据 集 线 性 可 分 时 ， 感 知 机 学 习 算 法 存在 无 穷 多 个 解 ， 其 解 由 
于 不 同 的 初 值 或 不 同 的 迭代 顺序 而 可 能 有 所 不 同 。 


继续 阅读 


感知 机 最 早 在 1957 年 由 Rosenblatt 提 出 品 。Novikoff ma ，Minsky 与 Papert 
a 等 人 对 感知 机 进行 了 一 系列 理论 研究 。 感 知 机 的 扩展 学 习 方法 包括 口 
袋 算 法 (pocket algorithm) “、 表 决 感知 机 (voted perceptron) " ` + 
边缘 感知 机 (perceptron with margin) “。 关 于 感知 机 的 介绍 可 进一步 
参考 文献 [7,8] ° 


习题 


2.1 Minsky 与 Papert 指 出 ， 感 知 机 因为 是 线性 模型 ， 所 以 不 能 表示 复杂 
ERR, WRB (XOR) 。 验 证 感知 机 为 什么 不 能 表示 异 或 。 


2.2 ”模仿 例题 2.1， 构 建 从 训练 数据 集 求 解 感知 机 模型 的 例子 。 


2.3 ”证 明 以 下 定理 : 样本 集 线 性 可 分 的 充分 必要 条 件 是 正 实例 后 集 所 
构成 的 叫 碗 站 与 负 实例 点 集 所 构成 的 叫 壳 互 不 相交 。 
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注释 


[1]。 第 7 章 中 会 介绍 y(w.x+b) 称 为 样本 点 的 函数 间隔 。 


[2] 设 集合 ScR "是 由 R" 中 的 k 个 点 所 组 成 的 集合 ， 即 S={xX1 ，Xx2，….Xkj}。 定 义 S 的 凸 碗 
conv(S) 为 


上 
conv(S)= J x= >> Ax, 
i=l 


| 


Ya ==> mere 
i=l 


第 3 章 kR 


k 近 邻 法 (k-nearest neighbor，k-NN) 是 一 种 基本 分 类 与 回归 方法 。 本 
书 只 讨论 分 类 问题 中 的 k 近 邻 法 。k 近 邻 法 的 输入 为 实例 的 特征 向 量 ， 
对 应 于 特征 空间 的 点 ; 输出 为 实例 的 类 别 ， 可 以 取 多 类 。k 近 邻 法 假设 
给 定 一 个 训练 数据 集 ， 其 中 的 实例 类 别 已 定 。 分 类 时 ， 对 新 的 实例 ， 
根据 其 k 个 最 近邻 的 训练 实例 的 类 别 ， 通 过 多 数 表 决 等 方式 进行 预测 。 
因此 ，k 近 邻 法 不 具有 显 式 的 学 习 过 程 。k 近 邻 法 实际 上 利用 训练 数据 
集 对 特征 向 量 空间 进行 划分 ， 并 作为 其 分 类 的 “模型 *。k 值 的 选择 、 距 
离 度 量 及 分 类 决策 规则 是 k 近 邻 法 的 三 个 基本 要 素 。k 近 邻 法 1968 年 由 
Cover 和 Hart 提 出 。 


本 章 首先 叙述 k 和 近邻 算法 ， 然 后 讨论 k 近 邻 法 的 模型 及 三 个 基本 要 素 ， 
最 后 讲述 k 近 领 法 的 一 个 实现 方法 一 一 kd 树 ， 介 绍 构造 kd 树 和 搜索 kd 树 
的 算法 。 


3.1 上 近邻 算法 


k 近 邻 算法 简单 、 直 观 : 给 定 一 个 训练 数据 集 ， 对 新 的 输入 实例 ， 在 训 
练 数据 集中 找到 与 该 实例 最 邻近 的 k 个 实例 ， 这 k 个 实例 的 多 数 属 于 某 
个 类 ， 就 把 该 输入 实例 分 为 这 个 类 。 下 面 先 叙 述 k 近 邻 算 法 ， 然 后 再 讨 
论 其 细节 。 

算法 3.1 (k 近 邻 法 ) 

输入 : 训练 数据 集 


[= { (x, J ), (x, ,> ), aD (x, Vy ) i 


其 中 ，x; exSR"' 为 实例 的 特征 癌 量 ，y; sy 5{c], C3, Ce HEH] 
的 类 别 ，i=12,...N; 实例 特征 向 量 x; 


输出 : 实例 x 所 属 的 类 y。 


(1) 根据 给 定 的 距离 度量 ， 在 训练 集 T 中 找 出 与 x 最 邻近 的 k 个 点 ， 池 
将 这 k 个 点 的 x 的 邻 域 记 作 Nk (x); 


(2) FEN, (x) PARED FRA 〈 如 多 数 表决 ) 决定 x 的 类 别 y: 


y =arg max >, 1(y,=c,), i=1,2,…,N; j=1,2,…,K (3.1) 
` 


rv eN, ( 


式 (3.1) 中 ，] 为 指示 函数 ， 即 当 y; =cj 时 I 为 1， 否 则 I 为 0。 


k 近 邻 法 的 特殊 情况 是 k= 1 的 情形 ， 称 为 最 近邻 算法 。 对 于 输入 的 实例 
A (特征 同 量 x， 最 近邻 法 将 训练 数据 集中 与 x 最 邻近 点 的 类 作为 x 的 


DE 


k 近 邻 法 没有 显 式 的 学 习 过 程 。 
3.2 ”上 近邻 模型 


k 近 令 法 使 用 的 模型 实际 上 对 应 于 对 特征 空间 的 划分 。 模 型 由 三 个 基本 
要 素 一 一 距离 度量 、k 值 的 选择 和 分 类 决策 规则 决定 。 


3.2.1 ”模型 


KEREP, SURAR ` EARE 〈 如 欧 氏 距离 ) 、k 值 及 分 类 决策 规 
则 《如 多 数 表决 ) 确定 后 ， 对 于 任何 一 个 新 的 输入 实例 ， 它 所 属 的 类 
唯一 地 确定 。 这 相当 于 根据 上 述 要 素 将 特征 空间 划分 为 一 些 子 空间 ， 


特征 空间 中 ， 对 每 个 训练 实例 点 区， 距离 该 点 比 其 他 点 更 近 的 所 有 点 组 
成 一 个 区 域 ， 叫 作 单 元 (cell) 。 每 个 训练 实例 点 拥有 一 个 单元 ， 所 有 
训练 实例 点 的 单元 构成 对 特征 空间 的 一 个 划分 。 最 近邻 法 将 实例 ※ 的 类 
iy 作 为 其 单元 中 所 有 点 的 类 标记 (class label) 。 这 样 ， 每 个 单元 的 实 
例 点 的 类 别 是 确定 的 。 图 3.1 是 二 维特 征 空间 划分 的 一 个 例子 。 


Oo x! 1) 


图 3.1 近邻 法 的 模型 对 应 特征 空间 的 一 个 划分 


3.2.2 ”距离 度量 


特征 空间 中 两 个 实例 点 的 距离 是 两 个 实例 点 相似 程度 的 反映 。k 近 邻 模 
型 的 特征 空间 一 般 是 n 维 实数 疝 量 空间 R"。 使 用 的 距离 是 欧 氏 距离 ， 但 
也 可 以 是 其 他 距离 ， 如 更 一 般 的 L ,距离 (L p distance) 或 Minkowski 距 
离 (Minkowski distance) ° 


设 特征 空间 x 是 n 维 实数 向 量 空 间 R*， 


high aD (n) \T = (x x x 
At Bae aa). eee y 
1 
L,(x;.%))= | Dix? 一 P j (3.2) 
Tal 


这 里 p>1。 当 p=2 时 ， 称 为 欧 氏 距离 (Euclidean distance), BP 


ko |= 


is ENR S y=( 5 x 一 vim 


当 p=1 时 ， 称 为 曼哈顿 距离 (Manhattan distance) ， 即 


(3.3) 


L,(x,,x;)= ži x) — x | (3.4) 


当 p==00 时 ， 它 是 各 个 坐标 距离 的 最 大 值 ， 即 


L,,(%;5X;) = max | x; p”) -x | (3.5) 


图 3.2 给 出 了 二 维 空 间 中 p 取 不 同 值 时 ， 与 原点 的 L ,距离 为 1 (Lp =1 
的 态 的 图 形 。 


图 3.2 Lp 距离 间 的 关系 


下 面 的 例子 说 明 ， 由 不 同 的 距离 度量 所 确定 的 最 近邻 点 是 不 同 的 。 


例 3.1 ”已 知 二 维 空间 的 3 个 点 x1 =(1D7xv=(5D7x3=(44)7， 试 求 
在 p 取 不 同 值 时 ，L ,距离 下 x 1 的 最 近邻 点 。 


解 ” 因 为 x1 和 x ,只 有 第 二 维 上 值 不 同 ， 所 以 p 为 任何 值 时 , LL, (x1,， x 
2)=4° i 


L(x,x)=6, L,(x,,x,)=4.24, L(x,x)=3.78, L,(x,,x,)=3.57 
于 是 得 到 ，p 等 于 1 或 2 时 ，x ,是 x ;的 最 近邻 点 ，p 大 于 等 于 3 时 ，x 是 x 
| 的 最 近邻 点 。 

3.2.3 kk 值 的 选择 
k 值 的 选择 会 对 k 近 邻 法 的 结果 产生 重大 影响 。 
如 果 选 择 较 小 的 k 值 ， 就 相当 于 用 较 小 的 邻 域 中 的 训练 实例 进行 预 


WM), “学习 ”的 近似 误差 (approximation error) 会 减 小 ， 只 有 与 输入 实 
例 较 近 的 (相似 的 ) 训练 实例 才 会 对 预测 结果 起 作用 。 但 缺点 是 “学 


习 ” 的 估计 误差 (estimation error) 会 增 大 ， 预 测 结果 会 对 近邻 的 实例 点 
非常 敏感 a 。 如 果 邻 近 的 实例 点 恰巧 是 噪声 ， 预 测 就 会 出 错 。 换 名 话 
说 ，k 值 的 减 小 就 意味 着 整体 模型 变 得 复杂 ， 容 易 发 生 过 拟 合 。 


如 朱 选 择 较 大 的 k 值 ， 束 相当 于 用 较 大 分 域 中 的 训练 实例 进行 预测 。 其 
优点 是 可 以 减少 学 习 的 估计 误差 。 但 缺点 是 学 习 的 近似 误差 会 增 大 。 
这 时 与 输入 实例 较 远 的 (不 相似 的 ， 训 练 实例 也 会 对 预测 起 作用 ， 使 
预测 发 生 错 误 。k 值 的 增 大 就 意味 着 整体 的 模型 变 得 简单 。 


如 琳 k 二 N， 那 么 无 论 输 入 实例 是 什么 ， 虱 将 简单 地 预测 它 属于 在 训练 
实例 中 最 多 的 类 。 这 时 ， 模 型 过 于 位 单 ， 完 全 忽略 训练 实例 中 的 大 量 
有 用 信息 ， 十 不 可 取 的 。 


在 应 用 中 ，k 值 一 般 取 一 个 比较 小 的 数值 。 通 常 采 用 交叉 验证 法 来 选取 
最 优 的 k 值 。 


3.2.4 分 类 决策 规则 


k 近 邻 法 中 的 分 类 决 案 规则 往往 是 多 数 表 决 ， 即 由 输入 实例 的 k 个 邻近 
的 训练 实例 中 的 多 数 类 决定 输入 实例 的 类 。 

多 数 表决 规则 (majority voting rule) 有 如 下 解释 : 如 果 分 类 的 损失 函 
数 为 0-1 损 失 函 数 ， 分 类 函数 为 


FR" 一 {cc Ck} 


那么 误 分 类 的 概率 是 
P(Y + f(X)=1-PV=f(X)) 


对 给 定 的 实例 xsex， 其 最 近邻 的 k 个 训练 实例 点 构成 集合 N(Co。 如 果酒 
EN OQ KRR Ec, BARTRA 
A > ines joi - I), =e) 


k EN, (x) k EN, (x) 


要 使 误 分 类 率 最 小 即 经 验 风险 最 小 ， 就 要 使 D 70% =6) 最 大 ， 所 以 
多 数 表决 规则 等 价 于 经 验 风险 最 小 化 。 

3.3 上 近邻 法 的 实现 : kd 树 
实现 k 近 邻 法 时 ， 主 要 考虑 的 问题 是 如 何 对 训练 数据 进行 快速 k 近 邻 搜 
素 。 这 点 在 特征 空间 的 维 数 大 及 训练 数据 容量 大 时 尤其 必要 。 


k 近 邻 法 最 简单 的 实现 方法 是 线性 扫描 (linear scan) 。 这 时 要 计算 输入 
实例 与 每 一 个 训练 实例 的 距离 。 当 训练 集 很 大 时 ， 计 算 非 常 耗 时 ， 这 
种 方法 是 不 可 行 的 。 

为 了 提高 k 近 邻 搜索 的 效率 ， 可 以 考虑 使 用 特殊 的 结构 存储 训练 数据 ， 
以 减少 计算 距离 的 次 数 。 具 体 方法 很 多 ， 下 面 介绍 其 中 的 kd 树 (kd 
tree) 方法 [Lo 


3.3.1 构造 kd 树 


kd 树 古 一 种 对 k 维 空间 中 的 实例 点 进行 存储 以 便 对 其 进行 快速 检索 的 树 
数据 结构 。kd 树 是 二 叉 树 ， 表 示 对 k 维 空间 的 一 个 划分 

(partition) 。 构 造 kd 树 相 当 于 不 断 地 用 垂直 于 坐标 轴 的 超 平面 将 k 维 
至 间 切 分 ， 构 成 一 系列 的 k 维 超 矩 形 区 域 。kd 树 的 每 个 结 点 对 应 于 一 个 
k 维 超 和 矩形 区 域 。 


构造 kd 树 的 方法 如 下 : 构造 根 结 点 ， 使 根 结 点 对 应 于 k 维 空间 中 包 侣 所 
有 实例 点 的 超 算 形 区 域 ， 通过 下 面 的 递归 方法 ， 不 断 地 对 k 维 空间 进行 
WT, ÆRTER o TEREKE 〈 结 点 ) 上 选择 一 个 坐标 轴 和 在 此 
坐标 轴 上 的 一 个 切 分 点 ， 确 定 一 个 超 平 面 ， 这 个 超 平 面 通过 选 定 的 切 
分 点 并 垂直 于 选 定 的 坐标 轴 ， 将 当前 超 窍 形 区 域 切 分 为 坞 厂 两 个 子 区 
域 ( 子 结 点 ) ; 这 时 ， 实 例 被 分 到 两 个 子 区 域 。 这 个 过 程 直 到 子 区 域 
内 没有 实例 时 终止 (终止 时 的 结 点 为 叶 结 点 ) 。 在 此 过 程 中 ， 将 实例 
傈 存在 相应 的 结 点 上 。 


通 钊 ， 依 次 选择 坐标 轴 对 衬 间 切 分 ， 选 择 训 练 实例 点 在 选 定 坐标 轴 上 
的 中 位 数 (median) 为 切 分 点 ， 这 样 得 到 的 kd 树 是 平衡 的 。 注 意 ,， 平 
衡 的 kd 树 搜索 时 的 效率 未 必 是 最 优 的 。 


下 面 给 出 构造 kd 树 的 算法 。 

算法 3.2 〈 构 造 平衡 kd 树 ) 

输入 : k 维 空间 数据 集 T= {x1，X2,...,XN}， 

ig eo eee. i= 1,2,....N; 

输出 : kd 树 。 

(1) 开始 : 构造 根 结 点 ， 根 结 点 对 应 于 包含 T 的 k 维 空间 的 超 矩 形 区 


Hy o 


Ža 


选择 x" 为 坐标 轴 ， 以 T 中 所 有 实例 的 x® 坐标 的 中 位 数 为 切 分 后， 将 根 
结 点 对 应 的 超 矩 形 区 域 切 分 为 两 个 子 区 域 。 切 分 由 通过 切 分 点 并 与 坐 
标 轴 x" 垂直 的 超 乎 面 实现 。 


由 根 结 点 生成 深度 为 1 的 左 、 右 子 结 点 ， 左 子 结 点 对 应 坐标 xw 小 于 切 分 
点 的 子 区 域 ， 右 子 结 点 对 应 于 坐标 xw 大 于 切 分 点 的 子 区域 。 

将 落 在 切 分 超 平面 上 的 实例 点 保存 在 根 结 点 。 

(2) 重复 ， 对 深度 为 j 的 结 点 ， 选 择 xw 为 切 分 的 坐标 轴 ，1= 
j(modk)+1， 以 该 结 点 的 区 域 中 所 有 实例 的 x" 坐标 的 中 位 数 为 切 分 点 ， 
将 该 结 点 对 应 的 超 矩形 区 域 切 分 为 两 个 子 区 域 。 切 分 由 通过 切 分 点 并 
与 坐标 轴 x" 垂 直 的 超 平面 实现 。 


由 该 结 点 生成 深度 为 +1 的 左 、 右 子 结 点 : 左 子 结 点 对 应 坐标 x° 小 于 切 
分 点 的 子 区 域 ， 右 子 结 点 对 应 坐标 x" 大 于 切 分 点 的 子 区 域 。 


将 落 在 切 分 超 平 面 上 的 实例 点 保存 在 该 结 点 。 
(3) 直到 两 个 子 区 域 没 有 实例 存在 时 停止 。 从 而 形成 kd 树 的 区 域 划 


分 。 


例 3.2 ”给 定 一 个 二 维 空间 的 数据 集 : 
T = {(2,3)",(5,4)" ,(9,6)' ,(4, 7)" ,(8,1)",(7,2)"} 


EE Bika e o 


EO 根 结 点 对 应 包含 数据 集 I 的 矩形 ， 选 择 x" 轴 ，6 个 数据 点 的 xu 坐 
标的 中 位 数 是 7， 以 平面 xoe =7 将 空间 分 为 左 、 右 两 个 子 矩 形 〈 子 结 
点 ) ; 接着 ， 左 矩形 以 x® =4 分 为 两 个 子 矩 形 ， 右 矩形 以 x% = 6 分 为 两 
个 子 矩 形 ， 如 此 递归 ， 最 后 得 到 如 图 3.3 所 示 的 特征 空间 划分 和 如 图 3.4 
所 示 的 kd 树 。 
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图 3.3 ”特征 空间 划分 


图 3.4 ”kd 树 示例 


3.3.2 ”搜索 kd 树 


下 面 介绍 如 何 利 用 kd 树 进行 k 近 邻 搜 索 。 可 以 看 到 ， 利 用 kd 树 可 以 省 去 
对 大 部 分 数据 点 的 搜索 ， 从 而 减少 搜索 的 计算 量 。 这 里 以 最 近邻 为 例 
加 以 叙述 ， 同 样 的 方法 可 以 应 用 到 k 近 邻 。 


给 定 一 个 目标 护 ， 搜 索 其 最 近邻 。 站 和 完 找到 包含 目标 后 的 叶 结 后 ， 然 
后 从 该 时 绪 点 出 发 ， 依 次 回 退 到 父 结 点 ; 不 断 碍 找 与 目标 点 最 邻近 的 
结 点 ， 当 确定 不 可 能 存在 更 近 的 结扎 时 终止 。 这 样 搜索 殉 家 限制 在 至 
间 的 局 部 区 域 上 ， 效 率 大 为 提高 。 


包 侣 目标 点 的 时 结 点 对 应 包含 目标 总 的 最 小 超 算 形 区 域 。 以 此 时 结 点 
的 实例 点 作为 当前 最 近 点 。 目 标点 的 最 近邻 一 定 在 以 目标 点 为 中 心 并 
通过 当前 最 近 点 的 超 球体 的 内 部 (参阅 图 3.5) 。 然 后 返回 当前 结 点 的 
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在 相交 的 区 域内 寻找 与 目标 点 更 近 的 实例 点 。 如 采 存 在 这 样 的 点 ， 将 
此 点 作为 新 的 当前 最 近 点 。 算 法 转 到 更 上 一 级 的 父 结 点 ， 继 续 上 述 过 
程 。 如 琳 父 结 点 的 胃 一 子 结 护 的 超 和 矩形 区 域 与 超 球 体 不 相交 ， 或 不 存 
在 比 当前 最 近 点 更 近 的 点 ， 则 停止 搜索 。 


图 3.5 ”通过 kd 树 搜索 最 近邻 


下 面 叙 述 用 kd 树 的 最 近邻 搜索 算法 。 

算法 3.3 (用 kd 树 的 最 近邻 搜索 ) 

输入 : 已 构造 的 kd 树 ; 目标 点 x; 

输出 :x 的 最 近邻 。 

(1) 在 kd 树 中 找 出 包含 目标 点 x 的 叶 结 点 : 从 根 结 点 出 发 ， 递 归 地 向 
下 访问 kd 树 。 若 目标 点 x 当前 维 的 坐标 小 于 切 分 点 的 坐标 ， 则 移动 到 左 
子 结 点 ， 否 则 移动 到 右 子 结 点 。 直 到 子 结 点 为 叶 结 点 为 止 。 

(2) 以 此 叶 结 点 为 “当前 最 近 点 ”。 

(3) 递归 地 向 上 回 退 ， 在 每 个 结 点 进行 以 下 操作 : 


(a) 如 果 该 结 点 保存 的 实例 点 比 当前 最 近 点 距离 目标 点 更 近 ， 则 以 该 
实例 点 为 “当前 最 近 点 ”。 


(b) 当前 最 近 点 一 定 存 在 于 该 结 点 一 个 子 结 点 对 应 的 区 域 。 检 查 该 子 
结 点 的 父 结 点 的 另 一 子 结 点 对 应 的 区 域 是 否 有 更 近 的 点 。 具 体 地 ， 检 
得 另 一 于 结 点 对 应 的 区 域 是 否 与 以 目标 点 为 球 心 、 以 目标 点 与 “当前 最 
近 点 ” 间 的 距离 为 半径 的 超 球 体 相交 。 


如 果 相 交 ， 可 能 在 男 一 个 子 结 点 对 应 的 区 域内 存在 距 目 标点 更 近 的 
点 ， 移 动 到 另 一 个 子 结 点 。 接 着 ， 递 归 地 进行 最 近邻 搜索 ; 
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(4) 当 回 退 到 根 结 点 时 ， 搜 索 结束 。 最 后 的 “当前 最 近 点 ” 即 为 x 的 最 
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如 采 实 例 点 是 随机 分 布 的 ，kd 树 搜索 的 平均 计算 复杂 度 是 OUdogN)， 这 
里 N 是 训练 实例 数 。kd 树 更 适用 于 训练 实例 数 远 大 于 空间 维 数 时 的 k 近 
邻 搜索 。 当 空间 维 数 授 近 训练 实例 数 时 ， 它 的 效率 会 迅速 下 降 ， 几 平 
接近 线性 扫 摘 。 


下 面 通过 一 个 例题 来 说 明 搜索 方法 。 


例 3.3 ”给 定 一 个 如 图 3.5 所 示 的 kd 树 ， 根 结 点 为 A， 其 子 结 点 为 B，C 
等 。 树 上 共存 储 7 个 实例 点 ， 男 有 一 个 输入 目标 实例 点 S$， 求 5 的 最 近 
SK o 


= 


解 ” 首 先 在 kd 树 中 找到 包含 点 S 的 叶 结 点 D (APA BO ， 以 点 
D 作 为 近似 最 近邻 。 真 正 最 近邻 一 定 在 以 点 $ 为 中 心 通过 点 D 的 圆 的 内 
部 。 然 后 返回 结 点 D 的 父 结 点 B， 在 结 点 B 的 另 一 子 结 点 F 的 区 域内 搜索 
最 近 祁 。 结 点 F 的 区 域 与 圆 不 相交 ， 不 可 能 有 最 近邻 点 。 继 续 返 回 上 一 
级 父 结 点 A， 在 结 点 A 的 男 一 子 结 点 C 的 区 域内 搜索 最 近邻 。 结 点 C 的 区 
域 与 加 相交; 该 区 域 在 圆 内 的 实例 点 有 点 E， 扩 E 比 态 D 更 近 ， 成 为 靳 
的 最 近 令 近似。 最 后 得 到 点 E 是 点 $ 的 最 近邻 。 


本 章 概要 
1，k 近 邻 法 是 基本 且 简 单 的 分 类 与 回归 方法 。k 近 邻 法 的 基本 做 法 是 ， 


对 给 定 的 训练 实例 扣 和 输入 实例 点 ， 首 移 确 定 输入 实例 总 的 k 个 最 近邻 
扩 ， 然 后 利用 这 k 个 训练 实例 点 的 类 的 多 数 来 预测 输入 实例 点 


2. k 近 邻 模型 对 应 于 基于 训练 数据 集 对 特征 空间 的 一 个 划分 。k 近 邻 法 
中 ， 当 训练 集 、 距 离 度量 、k 值 及 分 类 决策 规则 确定 后 ， 其 结果 唯一 确 
二 


3. k 近 邻 法 三 要 素 : 距离 度量 、k 值 的 选择 和 分 类 决策 规则 。 常 用 的 距 
离 度量 是 欧 氏 距离 及 更 一 般 的 pL 距离 。k 值 小 时 ，k 近 邻 模 型 更 复杂 ; k 
值 大 时 ，k 近 邻 模型 更 简单 。k 值 的 选择 反映 了 对 近似 误差 与 估计 误差 
之 间 的 权衡 ， 通 闻 由 交叉 验证 选择 最 优 的 k。 篆 用 的 分 类 决策 规则 是 多 
数 表 决 ， 对 应 于 经 验 风 险 最 小 化 。 


4. k 近 邻 法 的 实现 需要 考虑 如 何 快速 搜索 k 个 最 近邻 点 。kd 树 是 一 种 便 
于 对 k 维 空间 中 的 数据 进行 快速 检索 的 数据 结构 。kd 树 是 二 义 树 ， 表 示 
对 k 维 空间 的 一 个 划分 ， 其 每 个 结 点 对 应 于 k 维 空间 划分 中 的 一 个 超 矩 
形 区 域 。 利 用 kd 树 可 以 省 去 对 大 部 分 数据 点 的 搜索 ， 从 而 减少 搜索 的 


计算 量 。 


继续 阅读 


k 和 近邻 法 由 Cover 与 Hart 提 出 呈 。k 近 邻 法 相关 的 理论 在 文献 [2,3] 中 已 有 
论述 。k 近 邻 法 的 扩展 可 参考 文献 [4]。kd 树 及 其 他 快速 搜索 算法 可 参见 
文献 [5]。 关 于 kk 近邻 法 的 介绍 可 参考 文献 [2]。 


习题 
3.1 参照 图 3.1， 在 二 维 空 间 中 给 出 实例 点 ， 画 出 k 为 1 和 2 时 的 k 近 邻 法 
构成 的 空间 划分 ， 并 对 其 进行 比较 ， 体 会 k 值 选择 与 模型 复杂 度 及 预测 
准确 率 的 关系 。 
3.2 ”利用 例题 3.2 构 造 的 kd 树 求 点 x= (3,4.5) 7 的 最 近邻 点 。 


3.3 ”参照 算法 3.3， 写 出 输出 为 x 的 k 近 邻 的 算法 。 
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TERE 


[1 kd 树 是 存储 k 维 空间 数据 的 树 结 构 ， 这 里 的 k 与 k 近 邻 法 的 k 意 义 不 同 ， 为 了 与 习惯 一 致 ， 
本 书 仍 用 kd 树 的 名 称 。 


[2] 一 组 数据 按 大 小 顺序 排列 起 来 ， 处 在 中 间 位 置 的 一 个 数 或 最 中 间 两 个 数 的 平均 值 。 


[3]. 取 自 Wikipedia。 


第 4 章 ” 朴素 贝 叶 斯 法 


Kha UTE (naive Bayes) 法 是 基于 贝 叶 斯 定理 与 特征 条 件 独 立 假设 的 
分 类 方法 汪 。 对 于 给 定 的 训练 数据 集 ， 首 移 基 于 特征 条 件 独立 假设 学 习 
输入 /输出 的 联合 概率 分 布 ， 然 后 基于 此 模型 ， 对 给 定 的 输入 xX， 利 用 贝 
叶 斯 定理 求 出 后 验 概率 最 大 的 输出 y。 朴素 贝 叶 斯 法 实现 简单 ， 学 习 与 
预测 的 效率 都 很 高 ， 是 一 种 常用 的 方法 。 


本 章 叙 述 朴素 贝 叶 斯 法 ， 包 括 朴素 贝 叶 斯 法 的 学 习 与 分 类 、 朴 素 贝 叶 
斯 法 的 参数 估计 算法。 


4.1 朴素 贝 时 斯 法 的 学 习 与 分 类 
4.1.1 基本 方法 


设 输入 空间 xSR" 为 n 维 同 量 的 集合 ， 输 出 空间 为 类 标记 集合 Y= {c1， 
c5，..CK}。 输 入 为 特征 向 量 xsx， 输 出 为 类 标记 (class label) yey ° 
X 是 定义 在 输入 空间 x 上 的 随机 回 量 ，Y 是 定义 在 输出 空间 y 上 的 随机 
变量 。P(X,Y) 是 X 和 Y 的 联合 概率 分 布 。 训 练 数 据 集 

T= (x1 y1) (%2 Y2) (Xy Pn) 


由 P(X,Y) 独 立 同 分 布 产生 。 


朴 聂 贝 叶 斯 法 通过 训练 数据 集 学 习 联合 概率 分 布 PIX,Y)。 具 体 地 ， 学 
习 以 下 先 验 概率 分 布 及 条 件 概率 分 布 。 先 验 概 率 分 布 


P(Y=c), k=1,2,.…,K (4.1) 
条 件 概率 分 布 


P(X =x|Y=c,)=P(X® =x",-- xX" =x |Y=c,), =12… 天 (4.2) 


于 是 学 习 到 联合 概率 分 布 P(X,Y)。 

条 件 概率 分 布 PX=xlY=ckx) 有 指数 级 数量 的 参数 ， 其 估计 实际 是 不 可 
行 的 。 事 实 上 ， 假 设 x" 可 取 值 有 Sj 个 ，j=12,…n，Y 可 到 值 有 K 个 ， 
那么 参数 个 数 为 KL]S; i 


朴素 贝 叶 斯 法 对 条 件 概率 分 布 作 了 条 件 独立 性 的 假设 。 由 于 这 是 一 个 
较 强 的 假设 ， 朴 素 贝 叶 斯 法 也 由 此 得 名 。 具 体 地 ， 条 件 独立 性 假设 是 


P(X =x| Y=c,)= P(X” =x... y” = x(") | Y =C,) 


=] [PX =x217=c (4.3) 
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件 独 立 假设 等 于 是 说 用 于 分 类 的 特征 在 类 确定 的 条 件 下 都 是 条 件 独 立 
a eA 叶 斯 法 变 得 商 单 ， 但 有 时 会 牺牲 一 定 的 分 类 准 


朴素 贝 叶 斯 法 分 类 时 ， 对 给 定 的 输入 x， 通 过 学 习 到 的 模型 计算 后 验 概 
率 分 布 PCY=crk|IX= 习 ， 将 后 验 概 率 最 大 的 类 作为 x 的 类 输出 。 后 验 概 
率 计算 根据 贝 叶 斯 定理 进行 : 


MX ===) 
> P(X =x|¥ =¢,)PW =e) 


将 式 (4.3) TRA (4.4) 有 


P(Y =c )[ | PX? =x” |Y =a) 
DPW =a AX. =x Y=) 


0 o 于是， 朴素 贝 叶 斯 分 类 器 可 表示 


PYr=e [rae] (4.4) 


PY =¢,|X=x)= pee Che) 


P(Y =c, IEF = YO) | Y =c,) 


es (4.6) 
2 PY =e] [ PX? =x” |Y =e) 


y= f (x)= arg max 


注意 到 ， 在 式 (4.6) 中 分 母 对 所 有 Cy 都 是 相同 的 ， 所 以 ， 


y =arg max P(Y =c, Px’ az”? |Y se) (4.7) 


4.1.2 后 验 概率 最 大 化 的 含义 


朴素 贝 叶 斯 法 将 实例 分 到 后 验 概 率 最 大 的 类 中 。 这 等 价 于 期 望 风 险 最 
小 化 。 假 设 选择 0-1 损 失 函 数 : 


l Y#f(X) 


Lesi Y= f(X) 


式 中 f(X) 是 分 类 决策 函数 。 这 时 ， 期 望 风险 函数 为 
RF) = ELL(Y, f(X))] 
期 望 是 对 联合 分 布 P(X,Y) 取 的 。 由 此 取 条 件 期 望 
R (f) = Ey LLG (XDP |X) 
k=l 
为 了 使 期 望 风险 最 小 化 ， 只 需 对 X=x 逐 个 极 小 化 ， 由 此 得 到 : 
站 
f (x) =arg min LHe »y)P(c, |X =x) 
Š 
= arg min 2, P(y #c, |X =x) 


= arg min(] —P(y=c, |X =x)) 


= arg max P(y =c, |X =x) 


这 样 一 来 ， 根 据 期 望 风险 最 小 化 准则 就 得 到 了 后 验 概率 最 大 化 准则 : 
f(x)=argmax P(c, | X = x) 


即 朴素 贝 叶 斯 法 所 采用 的 原理 。 
4.2 ”朴素 贝 叶 斯 法 的 参数 估计 
4.2.1 极 大 似 然 估计 


在 朴素 贝 叶 斯 法 中 ， 学 习 意味 着 估计 P(Y=ck) 和 P(X?2 =x] =c). 
可 以 应 用 极 大 似 然 佑 计 法 估计 相应 的 概率 。 先 验 概 率 P(Y=c1 ) 的 极 大 
似 然 估 计 是 


PÜ =c) =, k=l, 2K (4.8) 


设 第 j 个 特征 x 可 能 取 值 的 集合 为 {ajl dj2，…ajSj fa 条 件 概 率 P(x d ajl 
[Y = cy AVIRA AMET E 


N 
S nie 
i=] - 

> IO =Cc,) 

i=] 


ebm 1=1,2,---,8.: k=1,2,--,K (4.9) 


式 中 ，x% 刀 是 第 i 企 样本 的 第 j 个 特征 ;ai 是 第 j 个 特征 可 能 取 的 第 1 个 
(B; Dafa AN ERY ° 


4.2.2 ”学 习 与 分 类 算法 
下 面 给 出 朴素 贝 叶 斯 法 的 学 习 与 分 类 算法 。 
算法 4.1 (朴素 贝 叶 斯 算法 (naive Bayes algorithm) ) 


P(X” =a,|Y =¢,)= 


输入 : 训练 数据 T= {(x 1, y1),(X2,yY 2),...,(XN;,Y N)}, 其 中 
x, = (xX ,xD x)", xO ERIE) MME, xP efaj 


'aj2，…ajs I, aj 征 第 j 个 特征 可 能 取 的 第 ] 个 值 ， j= 1,2,...,n, l= 
1,2,...,31， yiEt{c1, Co, CCK); 实例 x; 


输出 ， 实 例 x 的 分 类 。 
(1) 计算 先 验 概率 及 条 件 概率 


N 
l 


I(y, =c;) 


i 


PUY =¢,)==1_——,,_ k=1,2,--,K 


N 
> Le =agy, =¢) 
P(X" =a, |Y =¢,) =>, _—_——_ 
>» 1, =e) 
i=] 


了 三 1 2 五 l=, 天 = 2… 天 
(2) 对 于 给 定 的 实例 x=(xox2,. x), A 


P(Y =c,)| [PXO =x |Y =), k=1,2,-++,K 


j=l 


(3) 确定 实例 x 的 类 


y =arg max P(Y =c, [I PAX ay" | ¥ we) a 
Ch j=l 


例 4.1 ” 试 由 表 4.1 的 训练 数据 学 习 一 个 朴素 贝 叶 斯 分 类 器 并 确定 x= 
(2,5) "的 类 标记 y。 表 中 X%，X®% 为 符 征 ， 取 值 的 集合 分 别 为 A 1 = 
{1,2,3}, A, ={S, ML}, YARN, YeC={1,-1} ° 


表 4.1 ”训练 数据 


] 2 3 a 5 6 t E S wy ER B 
x” | | | | | 2 a = a 3 3 3 3 3 
x S M M 5 5 © M ae uz L M M LL L 
l l 1 


Y -l -I | -| -l 一 | l 

解 ” 根 据 算 法 4.1， 由 表 4.1， 容 易 计算 下 列 概率 : 
9 6 
PCY=D=15，PIY=-D=15 


P(X" =1|Y=1)= P(X” =2|/¥=1==, P(X" =3|¥ =)= 


Oin 


AX” =S|Y =)= P(X =M |Y =1)= P(X® =L Y =) == 


\ | 上 


3 2 | 
P(X” =1|Y=-1)=>, P(X" =2|¥=-l)==, P(X” =3|Y=-1)=- 
( | ) 6 ( | ) 6 ( | ) 6 


> 3 2 2 
EN Sl P(X™=MI|Y=-1)=-—， P(X® =LIY=-)== 


对 于 给 定 的 x=(2,S) "计算 : 


ToM 
PY =)P(X® =2|Y =1)P(X® =S|Y =1)=—.=.—=— 
(Y =DP( | )P( | ) = 15°9°9 45 
623 1 
PY =-I)P(X \=2|¥ =-) P(X” =SI7=-D= 一 .二 .二 = 一 
( )P( | )P( | ) 5°66 15 


EIN P(Y =-1)P(X © =2/Y =-1)P(X® =S|Y=-DexXK, Atbly=-1° 


4.2.3” 贝 叶 斯 估计 


用 极 大 似 然 估计 可 能 会 出 现 所 要 估计 的 概率 值 为 0 的 情况 。 这 时 会 影响 
到 后 验 概率 的 计算 结果 ， 使 分 类 产生 偏差 。 解 决 这 一 问题 的 方法 是 采 
用 贝 叶 斯 佑 计 。 具 体 地 ， 条 件 概 率 的 贝 叶 斯 佑 计 是 


Mz 


r” = Ai); =cC,)+A 
P(X” =a, |Y =e) == (4.10) 
可 


I(y, =¢,)+S,A 
THA 20° 等 价 于 在 随机 变量 各 个 取 值 的 频数 上 赋予 一 个 正 数 4 0 
SA =0 时 残 是 极 大 似 然 估计 。 常 取 4 =1， 这 时 称 为 拉 普 拉 斯 平 请 
(Laplace smoothing) 。 显 然 ， 对 任何 1=1,2,.….,S;}，K=1,2,.….,K， 有 


P(XW=a,|lY=c,)>0 


S; 
> BMRA =)=1 


{=| 


表明 式 (4.10) 确 为 一 种 概率 分 布 。 同 样 ， 先 验 概率 的 贝 叶 斯 估计 是 


》 10， =c,)+A 
PA 4.11 
=e) N+KA ay 
例 4.2 ”问题 同 例 4.1， 按 照 拉 普 拉 斯 平滑 估计 概率 ， 即 取 4 =1。 


解 A,={1,2,3}, A. ={S,ML}，C={1-1}。 按 照 式 (4.10) 和 式 
(4.11) 计算 下 列 概 率 : 


10 7 
P(Y=1)=—, P(Y=-l=— 
( ) 7 ( ) 


17 

3 4 5 

fl) 一 = ae AD = re Le r0 一 a 
P(X" =1|Y =1) 3 P(X |Y =1) = P(X” =3|Y =1) = 
P(X? =S|Y=)=—, P(X® =M|Y¥=l)=—>, P(X? =L|Y=l)=— 
12 12 12 

2 

P(X =1|Y=-)=$, P(X” =2|Y=-)=Ż, P(X =3|Y =-l)== 


P(X® =S|Y=-)=$, P(X? =M |Y=-)=Ż, P(X =L|Y =-l)= 


OIN 


对 于 给 定 的 x= (2,S) "计算 : 


i 0 2 
P(Y =)P(X” =2|Y =1)P(X® =SI7=D)= 一 .二 .二 = 二 =00327 
viz is 
734 28 
P(Y =-1)P(X" =2|¥ =-1)P(X® =S|Y =-1)=—-=-—=— = 0.0610 
17 9 9 459 


H FRY =-1)P(X © =2/Y =-1)P(X ® =S|Y=-DBXK, PrLly=-1° 


本 章 概 要 
1. 朴素 贝 叶 斯 法 是 典型 的 生成 学 习 方 法 。 生 成 方法 由 训练 数据 学 习 联 
合 概率 分 布 P(X,Y)， 然 后 求 得 后 验 概率 分 布 P(Y|X)。 具 体 来 说 ， 利 用 训 
练 数据 学 习 P(X|Y) 和 P(Y) 的 估计 ， 得 到 联合 概率 分 布 : 
P(X,Y)=P(Y)P(XIY) 
概率 估计 方法 可 以 是 极 大 似 然 估 计 或 贝 叶 斯 估计 : 
2. 朴素 贝 叶 斯 法 的 基本 假设 是 条 件 独立 性 ， 


PX =x |Y =e.) = P(A Sx" 5, £7 Se” |F =e) 
=| LAA" E) 
j=l 


这 是 一 个 较 强 的 假设 。 由 于 这 一 假设 ， 模 型 包含 的 条 件 概率 的 数量 大 
为 减少 ， 朴 素 贝 叶 斯 法 的 学 习 与 预测 大 为 简化 。 因 而 朴素 贝 叶 斯 法 高 
效 ， 且 易于 实现 。 其 缺点 是 分 类 的 性 能 不 一 定 很 高 。 
3 ATUL ARAL IR EE RET 
测 。 
py | x)= PY) _ POP IY) 
P(X) 2,P(Y)P(XIY) 


将 输入 x 分 到 后 验 概率 最 大 的 类 y。 


y = arg max P(Y =c, TI P(X, = 26 re 6) 


j=l 


后 验 概率 最 大 等 价 于 0-1 损 失 画 数 时 的 期 望 风险 最 小 化 。 


继续 阅读 


栖 素 贝 时 斯 法 的 介绍 可 见 文 献 [L2]。 朴 素 贝 叶 斯 法 中 假设 输入 变量 都 
征 条 件 独 立 的 ， 如 果 假 设 它 们 之 间 存 在 概率 依存 关系 ， 模 型 就 变 成 了 
贝 叶 斯 网 络 ， 参 见 文献 [3]。 


习题 


4.1 用 极 大 似 然 估计 法 推出 朴素 贝 叶 斯 法 中 的 概率 估计 公式 (4.8) 及 
公式 (4.9) ° 


4.2 用 贝 时 斯 估计 法 推出 朴素 贝 叶 斯 法 中 的 概率 估计 公式 (4.10) 及 
公式 (4.11) ° 
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决策 树 (decision tree) 是 一 种 基本 的 分 类 与 回归 方法 。 本 章 主 要 讨论 
用 于 分 类 的 决策 树 。 决 策 树 模型 呈 树 形 结构 ， 在 分 类 问题 中 ， 表 示 基 
于 特征 对 实例 进行 分 类 的 过 程 。 它 可 以 认为 是 if-then 规 则 的 集合 ， 世 
可 以 认为 是 定义 在 特征 空间 与 类 空间 上 的 条 件 概 率 分 布 。 其 主要 优点 
是 模型 具有 可 读 性 ， 分 类 速度 快 。 学 习 时 ， 利 用 训练 数据 ， 根 据 损失 
函数 最 小 化 的 原则 建立 决 岳 树 模型 。 预 测 时 ， 对 新 的 数据 ， 利 用 决 集 
树 模型 进行 分 类 。 决 策 树 学 习 通常 包括 3 个 步骤 : 特征 选择 、 决 策 树 的 
生成 和 决策 树 的 修剪 。 这 些 决策 树 学 习 的 思想 主要 来 源 于 由 Quinlan 在 
1986 年 提出 的 ID3 算 法 和 1993 年 提出 的 C4.5 算 法 ， 以 及 由 Breiman 等 人 
在 1984 年 提出 的 CART 算 法 。 


本 章 首 先 介 绍 决策 树 的 基本 概念 ， 然 后 通过 ID3 和 C4.5 介 绍 特征 的 选 
择 、 决 策 树 的 生成 以 及 决策 树 的 修剪 ， 最 后 介绍 CART 算 法 © 


5.1 决策 树 模型 与 学 习 
5.1.1 决策 树 模 型 


定义 5.1 GRE) ”分 类 决策 树 模型 是 一 种 描述 对 实例 进行 分 类 的 树 
形 结构 。 决 策 树 由 结 点 (node) FIA THI (directed edge) 组 成 。 结 点 
有 两 种 类 型 : 内 部 结 点 (internal node) 和 叶 结 点 (leaf node) 。 内 部 
结 点 表示 一 个 特征 或 属性 ， 叶 结 点 表示 一 个 类 。 


用 决策 树 分 类 ， 从 根 结 点 开始 ， 对 实例 的 某 一 特征 进行 测试 ， 根 据 测 
斌 结果， 将 实例 分 配 到 其 子 结 点 ， 这 时 ， 每 一 个 子 结 点 对 应 厦 该 特征 
的 一 个 取 值 。 如 此 递归 地 对 实例 进行 测试 并 分 配 ， 直 至 达到 叶 结 点 。 
最 后 将 实例 分 到 叶 结 点 的 类 中 。 


图 5.1 是 一 个 决策 树 的 示意 图 。 图 中 国 和 方 框 分 别 表示 内 部 结 点 和 叶 结 
Ho 


LN 


图 5.1 决策 树 模型 


5.1.2 ”决策 树 与 if-then 规 则 


可 以 将 决策 树 看 成 一 个 if-then 规 则 的 集合 。 将 决策 树 转 换 成 if-then 规 则 
的 过 程 是 这 样 的 : 由 决策 树 的 根 结 点 到 时 结 点 的 每 一 条 路 径 构建 一 条 
规则 ;路 径 上 内 部 结 点 的 特征 对 应 着 规则 的 条 件 ， 而 时 结 点 的 类 对 应 
着 规则 的 结论 。 决 策 树 的 路 径 或 其 对 应 的 if-then 规 则 集合 具有 一 个 重 
要 的 性 质 ， 互 不 并 且 完 备 。 这 束 是 说 ， 每 一 个 实例 都 被 一 条 路 径 或 一 
条 规则 所 有 覆盖 ， 而 且 只 个 一 条 路 径 或 一 条 规则 所 窗 益 。 这 里 所 谓 窗 许 
征 指 实例 的 特征 与 路 径 上 的 特征 一 致 或 实例 满足 规则 的 条 件 。 


5.1.3 ”决策 树 与 条 件 概率 分 布 


决策 树 还 表示 给 定 特征 条 件 下 类 的 条 件 概率 分 布 。 这 一 条 件 概 率 分 布 
定义 在 特征 空间 的 一 个 划分 (partition) 上 。 将 特征 空间 划分 为 互 不 相 
交 的 单元 (cell) 或 区 域 (region) ， 并 在 每 个 单元 定义 一 个 类 的 概率 
分 布 束 构 成 了 一 个 条 件 概 率 分 布 。 决 策 树 的 一 条 路 径 对 应 于 划分 中 的 
一 个 单元 。 决 策 树 所 表示 的 条 件 概率 分 布 由 各 个 单元 给 定 条 件 下 类 的 
条 件 概 率 分 布 组 成 。 假 设 X 为 表示 特征 的 随机 变量 ，Y 为 表示 类 的 随机 
变量 ， 那 么 这 个 条 件 概 率 分 布 可 以 表示 为 P(Y|X)。X 取 值 于 给 定 划 分 
下 单元 的 集合 ，Y 取 值 于 类 的 集合 。 各 叶 结 点 (单元 ) 上 的 条 件 概率 
往往 偏 同 某 一 个 类 ， 即 属于 某 一 类 的 概率 较 大 。 决 策 树 分 类 时 将 该 结 
点 的 实例 强行 分 到 条 件 概率 大 的 那 一 类 去 。 


图 5.2 (a) 示意 地 表示 了 特征 空间 的 一 个 划分 。 图 中 的 大 正方 形 表示 
特征 空间 。 这 个 大 正方 形 被 若干 个 小 矩形 分 割 ， 每 个 小 矩形 表示 一 个 
单元 。 特 征 空间 划分 上 的 单元 构成 了 一 个 集合 ，X 取 值 为 单元 的 集 

合 。 为 简单 起 见 ， 假 设 只 有 两 类 ， 正 类 和 人 负 类 ， 即 Y 取 值 为 +1 和 -1 ° 
小 矩形 中 的 数字 表示 单元 的 类 。 图 5.2 (b) 示意 地 表示 特征 空间 划分 
确定 时 ， 特 征 (单元 给 定 条 件 下 类 的 条 件 概 率 分 布 。 图 5.2 (b) 中 
条 件 概 率 分 布 对 应 于 图 5.2 (a) 的 划分 。 当 某 个 单元 c 的 条 件 概 率 满足 
P(Y 二 +1|X=c)>0.5 时 ， 则 认为 这 个 单元 属于 正 类 ， 即 落 在 这 个 单元 的 
实例 都 被 视 为 正 例 。 图 5.2 (c) 为 对 应 于 图 5.2 (b) 中 条 件 概率 分 布 的 
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决策 树 
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(a) 特征 空间 划分 


P(Y=+1|X) 


(b) 条 件 概 率 分 布 
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(c) 决策 树 
图 5.2 ”决策 树 对 应 于 条 件 概率 分 布 


5.1.4 决策 树 学 习 
决策 树 学 习 ， 假 设 给 定 训 练 数据 集 
D = ix y1) (NX, ), sy Vw It 


其 中 ,xi =(x, = Co eon att W ,.…,0，) "为 输入 实例 ( 特 

IENE) ,n 为 特征 个 数 ，y; e{1,2,...,K} 为 类 标记 ，i=1,2,...,N，NN 为 样 
本 容量 . 学 习 的 目标 是 根据 给 定 的 训练 数据 集 构建 一 个 决策 树 模型 ， 

使 它 能 够 对 实例 进行 正确 的 分 类 。 


决策 树 学 习 本 质 上 有 十 从 训练 数据 集中 归纳 出 一 组 分 类 规则 。 与 训练 数 
据 集 不 相 矛 盾 的 决策 树 ( 即 能 对 训练 数据 进行 正确 分 类 的 决策 树 ) 可 
能 有 多 个 ， 也 可 能 一 个 也 没有 。 我 们 需要 的 十 一 个 与 训练 数据 巴 盾 较 
小 的 决策 树 ， 同 时 有 具有 很 好 的 泛 化 能 力 。 从 男 一 个 角度 看 ， 决 策 树 学 
习 是 由 训练 数据 集 佑 计 条 件 概率 模型 。 基 于 特征 空间 划分 的 类 的 条 件 
概率 模型 有 无 穷 多 个 。 我 们 选择 的 条 件 概 率 模型 应 该 不 仅 对 训练 数据 
有 很 好 的 拟 合 ， 而 且 对 未 知 数据 有 很 好 的 预测 。 


决策 树 学 习 用 损失 函数 表示 这 一 目标 。 如 下 所 述 ， 决 策 树 学 习 的 损失 
畏 数 通 前 是 正则 化 的 极 大 似 然 画 数 。 决 策 树 学 习 的 策略 是 以 损失 函数 
为 目标 函数 的 最 小 化 。 


当 损失 函数 确定 以 后 ， 学 习 问题 束 变 为 在 损失 函数 意义 下 选择 最 优 决 
策 树 的 问题 。 因 为 从 所 有 可 能 的 决策 树 中 选取 最 优 决 策 树 古 NP 完 全 问 
题 ， 所 以 现实 中 决策 树 学 习 算 法 通常 采用 局 发 式 方法 ， 近 似 求解 这 一 
最 优化 问题 。 这 样 得 到 的 决策 树 是 次 最 优 (sub-optimal) 的 。 


决策 树 学 习 的 算法 通 第 古 一 个 雍 归 地 选择 最 优 符 征 ， 并 根据 该 特征 对 
训练 数据 进行 分 割 ， 使 得 对 各 个 于 数据 集 有 一 个 最 好 的 分 类 的 过 程 。 
这 一 过 程 对 应 着 对 特征 空间 的 划分 ， 也 对 应 看 决策 树 的 构建 。 开 始 ， 
构建 根 结 辟 ， 将 所 有 训练 数据 都 放 在 根 结 点 。 选 择 一 个 最 优 特征 ， 按 
照 这 一 特征 将 训练 数据 集 分 割 成 子 集 ， 使 得 各 个 子 集 有 一 个 在 当前 条 
件 下 最 好 的 分 类 。 如 果 这 些 子 集 已 经 能 够 被 基本 正确 分 类 ， 那 么 构建 
叶 结 点 ， 并 将 这 些 子 集 分 到 所 对 应 的 叶 结 点 中 去 ， 如 果 还 有 子 集 不 能 
被 基本 正确 分 类 ， 那 么 束 对 这 些 子 集 选择 新 的 最 优 特征 ， 继 续 对 其 进 
行 分 割 ， 构 建 相应 的 结 点 。 如 此 递归 地 进行 下 去 ， 直 至 所 有 训练 数据 
子 集 被 基本 正确 分 类 ， 或 者 没有 合适 的 特征 为 止 。 最 后 每 个 子 集 都 被 
分 到 叶 结 点 上 ， 即 都 有 了 明确 的 类 。 这 如 生成 了 一 棵 决策 树 。 


以 上 方法 生成 的 决策 树 可 能 对 训练 数据 有 很 好 的 分 类 能 力 ， 但 对 未 知 
的 测试 数据 却 未 必 有 很 好 的 分 类 能 力 ， 即 可 能 发 生 过 拟 合 现象 。 我 们 
需要 对 已 生成 的 树 目下 而 上 进行 玖 枝 ， 将 树 变 得 更 简 单 ， 从 而 使 它 具 
有 更 好 的 泛 化 能 力 。 具 体 地 ， 就 是 去 挥 过 于 细 分 的 叶 结 点 ， 使 其 回 退 
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如 果 特 征 数 量 很 多 ， 也 可 以 在 决策 树 学 习 开 始 的 时 候 ， 对 特征 进行 选 
择 ， 只 留 下 对 训练 数据 有 足够 分 类 能 力 的 特征 。 


可 以 看 出 ， 决 策 树 学 习 算 法 包含 特 征 选 择 、 决 策 树 的 生成 与 决策 树 的 
豆 术 过 程 。 由 于 决策 树 表示 一 个 条 件 概率 分 布 ， 所 以 深浅 不 同 的 决策 
树 对 应 着 不 同 复杂 度 的 概率 模型 。 决 策 树 的 生成 对 应 于 模型 的 局 部 选 
择 ， 决 策 树 的 瘟 校 对 应 于 模型 的 全 局 选择 。 决 策 树 的 生成 只 考虑 局 部 
最 优 ， 相 对 地 ， 决 全 树 的 瘟 校 则 考虑 全 局 最 优 。 


决策 树 学 习 常用 的 算法 有 ID3、C4.5 与 CART， 下 面 结合 这 些 算法 分 别 
叙述 决策 树 学 习 的 特征 选择 、 决 策 树 的 生成 和 剪 枝 过 程 。 


5.2 ”特征 选择 
5.2.1 ”特征 选择 问题 


特征 选 择 在 于 选取 对 训练 数据 具有 分 类 能 力 的 特征 。 这 样 可 以 提高 决 
策 树 学 习 的 效率 。 如 果 利 用 一 个 特征 进行 分 类 的 结果 与 随机 分 类 的 结 
果 没 有 很 大 差别 ， 则 称 这 个 特征 是 没有 分 类 能 力 的 。 经 验 上 扔 掉 这 样 
的 特征 对 决 党 树 学 习 的 精度 影响 不 大 。 通 稍 特 征 选 择 的 准则 是 信息 增 
从 或 信息 增益 比 。 


首先 通过 一 个 例子 来 说 明 特 征 选 择 问 题 。 


例 5.1 呈 表 5.1 是 一 个 由 15 个 样本 组 成 的 贷款 申请 训练 数据 。 数 据 包括 
贷款 申请 人 的 4 个 特征 (属性 ) : 第 1 个 特征 是 年 龄 ， 有 3 个 可 能 值 : 青 
年 ， 中 年 ， 老 年 ;第 2 个 特征 是 有 工作 ， 有 2 个 可 能 值 : 是 ， 否 ;第 3 个 
特征 是 有 目 己 的 房子 ， 有 2 个 可 能 值 : 是 ， 否 ;第 4 个 特征 是 信贷 情 

况 ， 有 3 个 可 能 值 : 非常 好 ， 好 ， 一 般 。 表 的 最 后 一 列 是 类 别 ， 是 否 同 


意 贷 款 ， 取 2 个 值 : E, fe 


表 5.1 ”贷款 申请 样本 数据 表 


ID 年 龄 有 工作 有 自己 的 房子 信贷 情况 类 别 
l 青年 ‘i A 般 ty 
2 吉 年 A Pr 好 i 
3 Ha 是 A 好 是 
4 HF 是 是 般 是 
5 H4 在 A - 般 ‘i 
6 中 年 f Pi 和 A 
7 中 年 f A 好 个 
8 中 年 是 是 好 是 
9 中 年 f 是 非常 好 是 
10 中 年 f 是 非常 好 kt 
11 老年 A 是 非常 好 是 
12 EE A 是 好 是 
13 老年 是 fi 好 是 
14 老年 是 A IEA i 是 
15 老年 和 ‘7 - 般 A 


希望 通过 所 给 的 训练 数据 学 习 一 个 贷款 申请 的 决策 树 ， 用 以 对 未 来 的 
贷款 申请 进行 分 类 ， 即 当 新 的 客户 提出 贷款 申请 时 ， 根 据 申请 人 的 特 
征 利用 决策 树 决定 是 否 批准 贷款 申请 。 


特征 选择 是 决定 用 哪个 特征 来 划分 特征 空间 。 


图 5.3 表 示 从 表 5.1 数 据 学 习 到 的 两 个 可 能 的 决策 树 ， 分 别 由 两 个 不 同 特 
征 的 根 结 点 构成 。 图 5.3 (a) 所 示 的 根 结 点 的 特征 是 年 龄 ， 有 3 个 取 
值 ， 对 应 于 不 同 的 取 值 有 不 同 的 子 结 点 。 图 5.3 b) 所 示 的 根 结 点 的 
特征 是 有 工作 ， 有 2 个 取 值 ， 对 应 于 不 同 的 取 值 有 不 同 的 子 结 点 。 两 个 
决策 树 都 可 以 从 此 延续 下 去 。 问 题 是 ， 究 竟 选 择 哪 个 特征 更 好 些 ? 这 
就 要 求 确定 选择 特征 的 准则 。 直 观 上 ， 如 果 一 个 特征 具有 更 好 的 分 类 
能 力 ， 或 者 说 ， 按 照 这 一 特征 将 训练 数据 集 分 割 成 子 集 ， 使 得 各 个 子 
集 在 当前 条 件 下 有 最 好 的 分 类 ， 那 么 就 更 应 该 选择 这 个 特征 。 信 息 增 
益 (information gain) 就 能 够 很 好 地 表示 这 一 直观 的 准则 。 


图 5.3 不 同 特征 决定 的 不 同 决策 树 


5.2.2 ”信息 增益 
为 了 便于 说 明 ， 先 给 出 业 与 条 件 烂 的 定义 。 
在 信息 论 与 概率 统计 中 ， 焙 (entropy) 是 表示 随机 变量 不 确定 性 的 度 
量 。 设 X 是 一 个 取 有 限 个 值 的 离散 随机 变量 ， 其 概率 分 布 为 
P(X =x,)=p,» i=]1,2,…,n 
VU SALAS BCX II ES 


n 


H(X)=-) p, log p, (5.1) 


i=] 


在 式 (5.1) +, Ap, =0， 则 定义 0log0=0。 通 常 ， 式 (5.1) 中 的 对 
数 以 2 为 底 或 以 e 为 底 (自然 对 数 ) ， 这 时 和 的 单位 分 别称 作 比 特 
(bit) 或 纳 特 (nat) ° FARE CHAN, HARP XA, MS XA 
MEAK, MAE REXAY MC V/EH(p), BH 


H(p)=-> p, log p, (5.2) 
i=l 


ARR, GLAS AY) NORE PE BOK © ME SCAT BSE 
0= H(p)S logn (5.3) 
当 随 机 变量 只 取 两 个 值 ， 例 如 1，0 时 ， 即 X 的 分 布 为 


P(X=lh=p, P(X=0)=l-p, 0<p<! 
RA 
H(p)=-plog, p-(1- p)log,(1- p) (5.4) 
XET, AHER Epi LAI RR. aR (单位 为 比特 ) 。 


1.0 
Sos 
= 0 

0 


0.5 1.0 
p 


R54 DERNEI AS Hi SARRA 


当 p=0 或 p=1 时 Hp)=0， 随 机 变量 完全 没有 不 确定 性 。 当 p= 0.5 时 ， 
H(p)=1, MPERA, NLE Be MAE ERA ° 


设 有 随机 变量 (X,Y)， 其 联合 概率 分 布 为 
P(X =x,,Y =y)= Pj? i=1,2,---,n; j=l,2,---,m 
条 件 炉 H(Y|X) 表 示 在 已 知 随机 变量 X 的 条 件 下 随机 变量 Y 的 不 确定 性 。 


随机 变量 X 给 定 的 条 件 下 随机 变量 Y 的 条 件 箭 (conditional entropy) 
H(Y|X)， 定 义 为 X 给 定 条 件 下 Y 的 条 件 概率 分 布 的 焕 对 X 的 数学 期 望 


H(Y|X)=> pH(Y|X=x) (5.5) 


i=l 


XE, p; =P(X=x,), i=1,2,....n° 


= AA SS A PR a CRRA ah) 得 到 时 ， 
PRT De AR SRE OP RA ZA (empirical entropy) 和 经 验 条 件 
Hī (empirical conditional entropy) 。 此 时 ， 如 果 有 0 概率 ， 令 0log0= 
0 o 


言 息 增益 (information gain) 表示 得 知 特征 xX 的 信息 而 使 得 类 Y 的 信息 
的 不 确定 性 减少 的 程度 。 


定义 5.2 (信息 增益 ) ”特征 A 对 训练 数据 集 D 的 信息 增益 g(D,A)， 
og ee 给 定 条 件 下 D 的 经 验 条 > 


g(D, A) = H(D)- H(D| A) (5.6) 


je, HHCY) SACEH(Y|X)Z ERER (mutual 
A 。 决策 树 学 习 中 的 信息 增益 等 价 于 训练 数据 集中 类 与 特 
征 ` 互 aA 2 


决 倘 树 学 习 应 用 信息 增益 准则 选择 特征 。 给 定 训 练 数 据 集 D 和 特征 A， 
经 验 售 H(D) 表 示 对 数据 集 D 进 行 分 类 的 不 确定 性 。 而 经 验 条 件 炳 

H(D|A) 表 示 在 特征 A 给 定 的 条 件 下 对 数据 集 D 进 行 分 类 的 不 确定 性 。 那 
么 它们 的 差 ， 即 信息 增益 ， 就 表示 由 于 特征 A 而 使 得 对 数据 集 D 的 分 类 
的 不 确定 性 减少 的 程度 。 显 然 ， 对 于 数据 集 D 而 言 ， 信 息 增益 依赖 于 
a R 信息 增益 大 的 特征 具有 


根据 信息 增益 准则 的 特征 选择 方法 是 : 对 训练 数据 集 (或 子 集 ) D 
计算 其 每 个 特征 的 信息 增益 ， 并 比较 它们 的 大 小 ， 选 择 信 息 增益 最 大 
的 特征 。 

设 训 练 数据 集 为 D，|D| 表 示 其 样本 容 pat 数 。 设 有 K 个 类 C 
eo ee A ÈIG, 1=1D1 ， 设 特征 A 
有 n 个 不 同 的 取 值 {a1 ，a,，,...,an】}， 根据 特征 A 的 取 值 将 D 划 人 分 为 二 个 于 
KD DaDa, DiIXD ;的 样本 个 数 , 守 |D1=|D| 。 记 子 集 D ;中 属 
于 类 Ci 的 样本 的 集合 为 Di ， 即 D ,=D; 门 Cx ，|Di| 为 Di 的 样本 个 
数 。 Taf SA aE FAM F: 


算法 5.1 (信息 增益 的 算法 ) 

iA: 训练 数据 集 D 和 特征 A; 

输出 : 特征 A 对 训练 数据 集 D 的 信息 增益 g(D,A)。 
(1) 计算 数据 集 D 的 经 验 粹 H(D) 


IC 1G | 
H(D)= (5.7) 
Ti |D] 
(2) ARMEANA REDIR RAHOJA) 
H(D|A)= È HD) =- DE a | (5.8) 


(3) 计算 信息 增益 

g(D, A) = H(D)-H(D| A) (5.9) m 
pee 对 表 5.1 所 给 的 训练 数据 集 D， 根 据 信 息 增 益 准则 选择 最 优 特 
征 。 


AR CT ZH (D) 。 


9 9 6 6 

H(D) =-— log, — -— log, — = 0.971 
”) 15 8z b B 8z 15 

然后 计算 各 特征 对 数据 集 D 的 信息 增益 © AIA, Az, Ag, A4% 

示 年 龄 、 有 工作 、 有 自己 的 房子 和 信贷 情况 4 个 特征 ， 则 


C1) 


g(D,A,)= H(D)- 区 H(D)+ HD, ) 


sf 5. 4 SS 
| 
Bi H a e5) 


+3 {10 MEA 2) Ž(-fi 2 z) 
is\ 5 5 5 5) 15\ 5 "5 5 5 


= 0.971 — 0.888 = 0.083 


这 里 D1，D，,，D ;分 别 是 D 中 A | FIR) 取 值 为 青年 、 中 年 和 老年 的 
样本 子 集 。 类 似 地 ， 


(2) 
g(D, A,) = H(D)- Š H(D,) +2 HUD. ] 


=0.971— Py ros- og, FS, a = 0.324 
15 1I5\ 10 10 10 10 


(3) 


6 9( 3. 3 6 
D, A.) =0.971-| 2-x0+—| -2 10 =~ clo 
8.4) 区 Al 9 89 9 = 5) 


= 0.971 — 0.551 = 0.420 
(4) 
g(D, A,) = 0.971 — 0.608 = 0.363 


最 后 ， 比 较 各 特征 的 信息 增益 值 。 由 于 特征 A 。 (有 自己 的 房子 ) 的 信 
轧 增 答 值 最 大 ， 所 以 选择 特征 As 作为 最 优 特征 。 


5.2.3 ”信息 增益 比 


言 思 增 葵 值 的 大 小 是 相对 于 训练 数据 集 而 言 的 ， 并 没有 绝对 意义 。 在 
TR ALAR MEY, HL ETE VSR AERA ZA 1, fe 
mK MZ, fee mh o AE 8 E 


(information gain ratio) 可 以 对 这 一 问题 进行 校正 。 这 是 特征 选择 的 
另 一 准则 。 


定义 5.3 (信息 增益 比 ) 特征 A 对 训练 数据 集 D 的 信息 增益 比 gg& 

(D,A) 定 义 为 其 信息 增益 g(D,A) 与 训练 数据 集 D 的 经 验 箭 HOD) 之 比 : 

g(D, A) 
H(D) 


5.3 ”决策 树 的 生成 


本 市 将 介绍 决策 树 学 习 的 生成 算法 。 首 先 介 绍 ID3 的 生成 算法 ， 然 后 
再 介绍 C4.5 中 的 生成 算法 。 这 些 都 是 决策 树 学 习 的 经 典 算法 。 


5.3.1 ID3 算 法 


ID3 算 法 的 核心 是 在 决策 树 各 个 结 点 上 应 用 信息 增益 准则 选择 特征 ， 
递归 地 构建 决策 树 。 上 有 具体 方 法 是 : 从 根 结 点 (root node) 开始 ， 对 结 
点 计算 所 有 可 能 的 特征 的 信息 增益 ， 选 择 信息 增益 最 大 的 特征 作为 结 
点 的 特征 ， 由 该 特征 的 不 同 取 值 建立 子 结 点 ;再 对 子 结 点 递归 地 调用 
以 上 方法 ， 构 建 决策 树 ， 直 到 所 有 特征 的 信息 增益 均 很 小 或 没有 特征 
可 以 选择 为 止 。 最 后 得 到 一 个 决 贫 树 。ID3 相 当 于 用 极 大 似 然 法 进行 
概率 模型 的 选择 。 


算法 5.2 (D3 算法 ) 

输入 : 训练 数据 集 D， 特 征集 A， 阔 值 € ; 

输出 ， 决 策 树 T。 

(1) 若 D 中 所 有 实例 属于 同一 类 C, ， 则 T 为 单 结 点 树 ， 并 将 类 C LE 
为 该 结 点 的 类 标记 ， 返 回 T; 

(2) 若 A==@， 则 T 为 单 结 点 树 ， 并 将 了 DD 中 实例 数 最 大 的 类 C | 作为 该 
结 点 的 类 标记 ， 返 回 T; 


g,(D, A) = (5.10) 


| 


(3) 否则 ， 按 算法 5.1 计 算 A 中 各 特征 对 D 的 信息 增益 ， 选 择 信息 增益 
最 大 的 特征 A g: 


(4) WRA 6 的 信息 增益 小 于 阐 值 6 ， 则 置 T 为 单 结 点 树 ， 并 将 D 中 实 
例 数 最 大 的 类 Ck 作为 该 结 点 的 类 标记 ， 返 回 T; 


(5) 否则 ， 对 A ,的 每 一 可 能 值 ai ， 依 A 。 = ai 将 D 分 割 为 若干 非 空子 
集 D;， 将 Di 中 实例 数 最 大 的 类 作为 标记 ， 构 建 子 结 点 ， 由 结 点 及 其 子 
结 点 构成 树 T， 返 回 T; 


(6) 对 第 i 个 子 结 点 ， 以 D ;为 训练 集 ， 以 A-{A s} 为 特征 集 ， 递 归 地 调 
用 步 (1) Sedi (5) ， 得 到 子 树 Ti , EIT, S 


例 5.3 ”对 表 5.1 的 训练 数据 集 ， 利 用 ID3 算 法 建立 决策 树 。 


解 ” 利 用 例 5.2 的 结果 ， 由 于 特征 A。 (有 自己 的 房子 ) 的 信息 增益 值 
最 大 ， 所 以 选择 特征 A ,作为 根 结 点 的 特征 。 它 将 训练 数据 集 D 划 分 为 
两 个 子 集 D， (A RUBE”) MD, (APEA T”) 。 由 于 D1 只 
有 同一 类 的 样本 点 ， 所 以 它 成 为 一 个 叶 结 点 ， 结 点 的 类 标记 为 “是 ”。 
对 D , 则 需 从 特征 A ， (ER) ，A 。( 有 工作 ) 和 A (信贷 情况 ) 中 
选择 新 的 特征 。 计 算 各 个 特征 的 信息 增益 : 

g(D,,4)= H(D,)- H(D, | 4,) = 0.918 — 0.667 = 0.251 

g(D,,A,)= H(D,)- H(D, | 4,) =0.918 

g(D,, 4) = H(D,)—H(D, | A,) = 0.474 
选择 信息 增益 最 大 的 特征 A，( 有 工作 ) 作为 结 点 的 特征 。 由 于 A ,有 两 
个 可 能 取 值 ， 从 这 一 结 点 引出 两 个 子 结 点 : 一 个 对 应 “是 ”( 有 工作 ) 
的 子 结 点 ， 包 含 3 个 样本 ， 它 们 属于 同一 类 ， 所 以 这 是 一 个 时 结 点 ， 类 


标记 为 “是 ” 男 一 个 是 对 应 “ 否 ”( 无 工作 ) 的 子 结 点 ， 包 含 6 个 样本 ， 
它们 也 属于 同一 类 ， 所 以 这 也 是 一 个 叶 结 点 ， 类 标记 为 “ 否 ”。 


这 样 生成 一 个 如 图 5.5 所 示 的 决策 树 。 该 决策 树 只 用 了 两 个 特征 (有 两 


个 内 部 结 点 ) 。 


有 自己 的 房子 


图 5.5 ”决策 树 的 生成 
ID3 算 法 只 有 树 的 生成 ， 所 以 该 算法 生成 的 树 容易 产生 过 拟 合 。 
5.3.2 ”C4.5 的 生成 算法 


C4.5 算 法 与 ID3 算 法 相似 ，C4.5 算 法 对 ID3 算 法 进行 了 改进 。C4.5 在 生 
成 的 过 程 中 ， 用 信息 增益 比 来 选择 特征 。 


算法 5.3 (C4.5 的 生成 算法 ) 
输入 : 训练 数据 集 D， 特 征集 A， 阅 值 € ; 
输出 : 决策 树 T ° 


(1) 如 果 D 中 所 有 实例 属于 同一 类 Ck ， 则 置 T 为 单 结 点 树 ， 并 将 Cn 
作为 该 结 点 的 类 ， 返 回 T; 

(2) 如 果 A= 纪 ， 则 置 T 为 单 结 点 树 ， 并 将 D 中 实例 数 最 大 的 类 Crk 作 
ARAM, REIT; 


(3) 否则 ， 按 式 (5.10) 计算 A 中 各 特征 对 D 的 信息 增益 比 ， 选 择 信 
县 增 花 比 最 大 的 符 征 A 。; 


(4) 如 采 A Ae ee) Pe ， 则 置 T 为 单 结 点 树 ， 并 将 D 中 
实例 数 最 大 的 类 Cl 作为 该 结 点 的 类 ， 返 回 T; 


(5) 否则 ， 对 A 。 的 每 一 可 能 值 ai ， 依 As =a, RDDR FRATE 
空 Di， 将 Di 中 实例 数 最 大 的 类 作为 标记 ， 构 建 子 结 点 ， 由 结 点 及 其 子 
结 点 构成 树 T， 返 回 T; 


(6) 对 结 点 1， 以 D i 为 训练 集 ， 以 A-{A s } 为 特征 集 ， 递 归 地 调用 步 
(一步 (5)， 得 到 子 树 Ti ， 返 回 Ti 。 


5.4 TRAY BY AN 


决策 树 生 成 算法 递归 地 产生 决策 树 ， 直 到 不 能 继续 下 去 为 止 。 这 样 产 
生 的 树 往往 对 训练 数据 的 分 类 很 准确 ， 但 对 未 知 的 测试 数据 的 分 类 却 
没有 那么 准确 ， 即 出 现 过 拟 合 现象 。 过 拟 合 的 原因 在 于 学 习 时 过 多 地 
考虑 如 何 提高 对 训练 数据 的 正确 分 类 ， 从 而 构建 出 过 于 复杂 的 决策 
° a 对 已 生成 的 决策 树 
进行 简化 。 


在 决策 树 学 习 中 将 已 生成 的 树 进行 简化 的 过 程 称 为 剪 术 (pruning) ° 
具体 地 ， 和 圾 校 从 已 生成 的 树 上 裁 控 一些 子 树 或 叶 结 点 ， 并 将 其 根 结 点 
或 父 结 点 作为 新 的 叶 结 点 ， 从 而 们 化 分 类 树 模 型 。 


本 广 介 绍 一 种 简单 的 决策 树 学 习 的 前 校 算法 。 

决策 树 的 剪 校 往往 通过 极 小 化 决策 树 整体 的 损失 函数 (loss function) 
或 代价 函数 (cost function) 来 实现 。 设 树 T 的 叶 结 点 个 数 为 | 工 ，t 是 树 
T 的 叶 结 点 ， 该 叶 结 点 有 N 个 样本 点 ， 其 中 k 类 的 样本 点 有 Nj 个 ，k= 
1,2,.….,K，H1(T) 为 叶 结 点 t 上 的 经 验 粹 ，a>0 为 参数 ， 则 决策 树 学 习 的 
损失 函数 可 以 定义 为 


T 
C (T= > N,H,(T)+a|T| (5.11) 


其 中 经 验 炳 为 


N N 
H(T)=-) —log—* 312 


在 损失 函数 中 ， 将 式 (5.11) 右 端 的 第 1 项 记 作 


ir] K 
d 
k= 


C(T)=2,N,H,(T)= D N a bu E 


(5.13) 
t=] t=1 k=l N 


这 时 有 
C (T)=C(T)+a|T| (5.14) 


式 (5.14) 中 ，C(T) 表 示 模 型 对 训练 数据 的 预测 误差 ， 即 模型 与 训练 
数据 的 拟 合 程度 ，|T| 表 示 模 型 复杂 度 ， 参 数 a>0 控 制 两 者 之 间 的 影响 。 
较 大 的 a 促使 选择 较 简 单 的 模型 ( 树 ) ， 较 小 的 a 促使 选择 较 复杂 的 模 
型 W) 。a=0 意 味 着 只 考虑 模型 与 训练 数据 的 拟 合 程度 ， 不 考虑 模 
型 的 复杂 度 。 


豆 校 ， 就 古 当 a 确定 时 ， 远 择 损失 函数 最 小 的 模型 ， 即 损失 函数 最 小 的 
子 树 。 当 a 值 确定 时 ， 子 树 越 大 ， 往 往 与 训练 数据 的 拟 合 越 好 ， 但 是 模 
型 的 复杂 度 束 越 高 ;相反 ， 子 树 越 小 ， 模 型 的 复杂 度 殉 越 低 ， 但 是 往 
往 与 训练 数据 的 拟 合 不 好 。 损 失 函 数 正好 表示 了 对 两 者 的 平衡 。 


可 以 看 出 ， 决 策 树 生成 只 考虑 了 通过 提高 信息 增益 (或 信息 增益 比 ) 

对 训练 数据 进行 更 好 的 拟 合 。 而 决策 树 辫 枝 通 过 优化 损失 函数 还 考虑 
了 减 小 模型 复杂 度 。 决 策 树 生成 学 习 局 部 的 模型 ， 而 决策 树 豆 梳 学 习 
整体 的 模型 。 

式 (5.11) 或 式 (5.14) 定义 的 损失 函数 的 极 小 化 等 价 于 正则 化 的 极 大 
似 然 估 计 。 所 以 ， 利 用 损失 函数 最 小 原则 进行 豆 枝 就 是 用 正则 化 的 极 
大 似 然 佑 计 进 行 模型 克 择 。 


图 5.6 是 决策 树 藤 梳 过 程 的 示意 图 。 下 面 介绍 驴 术 算法 。 


前 村 


| 得 到 子 树 


图 5.6 RET AY BAK 


算法 5.4 ( 树 的 剪 枝 算法 ) 

输入 ， 生 成 算法 产生 的 整个 树 T， 参 数 a 
输出 ， 修 剪 后 的 子 树 T。。 

(1) TOLMER AOI 

(2) 递归 地 从 树 的 叶 结 点 向 上 回 缩 。 


设 一 组 叶 结 点 回 缩 到 其 父 结 点 之 前 与 之 后 的 整体 树 分 别 为 Tp 与 Th， 
其 对 应 的 损失 函数 值 分 别 是 Cu(TB) 与 Cu(TA)， 如 果 


emise aa (5.15) 
则 进行 剪 校 ， 即 将 父 结 点 变 为 新 的 叶 结 点 。 


(3) 返回 (2) ， 直 至 不 能 继续 为 止 ， 得 到 损失 函数 最 小 的 子 树 T。。 


注意 ， 式 (5.15) 只 需 考虑 两 个 树 的 损失 函数 的 差 ， 其 计算 可 以 在 局 
部 进行 。 所 以 ， 决 集 树 的 榴 术 算法 可 以 由 一 种 动态 规划 的 算法 实现 。 
类 似 的 动态 规划 算法 可 参见 文献 [10]。 


5.5 CARTHY 


分 类 与 回归 树 (classification and regression tree, CART) 模型 由 
Breiman 等 人 在 1984 年 提出 ， 有 是 应 用 广泛 的 决策 树 学 习 方法 。CART 同 
样 由 特征 选择 、 树 的 生成 及 剪 极 组 成 ， 既 可 以 用 于 分 类 也 可 以 用 于 回 
归 。 以 下 将 用 于 分 类 与 回归 的 树 统 称 为 决策 树 。 


CART 是 在 给 定 输 入 随机 变量 Xx 条 件 下 输出 随机 变量 Y 的 条 件 概率 分 布 
的 学 习 方 法 。CART 假 设 决 策 树 是 二 又 树 ， 内 部 结 点 特征 的 取 值 

为 " 征 ? 和 "人 否 ”， 左 分 文 是 取 值 为 "是 ”的 分 文 ， 石 分 文 是 取 值 为 " 否 ? 的 

分 文 。 这 样 的 决策 树 等 价 于 递归 地 二 分 每 个 特征 ， 将 输入 空间 即 特征 
空间 划分 为 有 限 个 单元 ， 并 在 这 些 单 元 上 确定 预测 的 概率 分 布 ， 也 就 
征 在 输入 给 定 的 条 件 下 输出 的 条 件 概率 分 布 。 


CART 算 法 由 以 下 两 步 组 成 : 
o 决策 树 生 成 : 基于 训练 数据 集 生 成 决策 树 ， 生 成 的 决策 树 要 尽量 


(2) 决策 树 剪 枝 ， 用 验证 数据 集 对 已 生成 的 树 进 行 前 校 并 选择 最 优 子 
树 ， 这 时 用 损失 函数 最 小 作为 瘟 枝 的 标准 。 


5.5.1 CART 生 成 
决策 树 的 生成 就 是 递归 地 构建 二 叉 决 策 树 的 过 程 。 对 回归 树 用 平方 误 
差 最 小 化 准则 ， 对 分 类 树 用 基尼 指数 (Gini index) 最 小 化 准则 ， 进 行 
特征 选择 ， 生 成 二 叉 树 。 
1. 回归 树 的 生成 


假设 X 与 Y 分 别 为 输入 和 输出 变量 ， 并 且 Y 是 连续 变量 ， 给 定 训练 数据 
Ba 


AN 


D= t(x, Vi AY Ak “(xy YN )j 


考虑 如 何 生 成 回归 树 。 


一 个 回归 树 对 应 着 输入 空间 ( 即 特征 空间 ) 的 一 个 划分 以 及 在 划分 的 
单元 上 的 输出 值 。 假 设 已 将 输入 空间 划分 为 M 个 单元 R1R，。…R NM， 
并 且 在 每 个 单元 Rm 上 有 一 个 固定 的 输出 值 cw ， 于 是 回归 树 模 型 可 表 
示 为 


M 
f(x) = Dic, I(x eR,) (5.16) 
当 输入 空间 的 划分 确定 时 ， 可 以 用 平方 误差 2。 01 - SO) 来 表示 回 
归 树 对 于 训练 数据 的 预测 误差 ， 用 平方 误差 最 小 的 准则 求解 每 个 单元 
上 的 最 优 输 出 值 。 易 知 ， 单 元 Rm 上 的 cm 的 最 优 值 En 是 Rm 上 的 所 有 
输入 实例 x; 对 应 的 输出 y; 的 均值 ， 即 


G = ave( y, | X; € R,,) (5. l 7) 


问题 是 怎样 对 输入 空间 进行 划分 。 这 里 采用 局 发 式 的 方法 ， 选 择 第 j 个 
变量 x" 和 它 取 的 值 s， 作 为 切 分 变量 (splitting variable) 和 切 分 点 
(splitting point) ， 并 定义 两 个 区 域 : 
R(j,s)={x|x Ss} AMOR, (j,8) = {x| x"? >s} (5.18) 


然后 寻找 最 优 切 分 变量 j 和 最 优 切 分 点 8。 具体 地 ， 求 解 


min| min >, (y, -c,) +min x (y, -6 (5.19) 
Jo “| KER Cs) 2 ER (j.s) 

对 固定 输入 变量 j 可 以 找到 最 优 切 分 点 s。 
ĉ =ave(y |x, eR(j,s) 和 é, =ave(y,|x, eR,(j,s)) (5.20) 


遍历 所 有 输入 变量 ， 找 到 最 优 的 切 分 变量 j， 构 成 一 个 对 (js)。 依 此 将 
输入 空间 划分 为 两 个 区 域 。 接 着 ， 对 每 个 区 域 重 复 上 述 划 分 过 程 ， 直 
到 满足 停止 条 件 为 止 。 这 样 束 生成 一 棵 回归 树 。 这 样 的 回归 树 通 第 称 


为 最 小 二 乘 回 归 树 (least squares regression tree) ， 现 将 算法 叙述 如 
下 : 


算法 5.5 (最 小 二 乘 回归 树 生 成 算法 ) 
输入 : 训练 数据 集 D; 
输出 : 回归 树 f(x)。 


在 训练 数据 集 所 在 的 输入 空间 中 ， 递 归 地 将 每 个 区 域 划分 为 两 个 于 区 
域 并 决定 每 个 子 区 域 上 的 输出 值 ， 构 建 二 又 决策 树 : 


(1) 选择 最 优 切 分 变量 j 与 切 分 点 ;5， 求 解 


min| min > (y; -cy +min 3 () -6 (5.21) 
sg 1 veR(j,s) 2 eR (js) 
饥 历 变量 j， 对 固定 的 切 分 变量 j 扫 描 切 分 点 s， 选 择 使 式 (5.21) 达到 
最 小 值 的 对 (j,s) 
(2) 用 选 定 的 对 (js) 划分 区 域 并 决定 相应 的 输出 值 : 
Rt hs tl 
l 


e =T >. y,» xER,, m=1,2 
tY m XEeRn (js) 


(3) 继续 对 两 个 子 区 域 调用 步 台 (1) ， (2) ， 直 至 满足 停止 条 件 。 
(4) 将 输入 空间 划分 为 M 个 区 域 R 1,R,,.….Rm， 生 成 决策 树 : 


Tays PRM IE. ER) 2 
2. 分 类 树 的 生成 


分 类 树 用 基尼 指数 选择 最 优 特征 ， 同 时 决定 该 特征 的 最 优 一 值 切 分 


定义 5.4 (基尼 指数 ) ”分 类 问题 中 ， 假 设 有 K 个 类 ， 样 本 点 属于 第 k 
类 的 概率 为 pk ， 则 概率 分 布 的 基尼 指数 定义 为 


大 K 
Gini( p) = YP, (l-— p,)=1- De. (5.22) 
k=l k=l 


对 于 二 类 分 类 问题 ， 帮 样本 点 属于 第 1 个 类 的 概率 是 p， 则 概率 分 布 的 
基尼 指数 为 

Ginli(P)=2P(1 一 也 ) (5.23) 
对 于 给 定 的 样本 集合 D， 其 基尼 指数 为 


efg 
Gini(D) =1-— 一 “一 | 
2 D|} 


(5.24) 


这 里 ，Ck 征 D 中 属于 第 k 类 的 样本 子 集 ，K 有 十 类 的 个 数 。 
如 采样 本 集合 D 根 据 特征 A 是 否 取 某 一 可 能 值 a 被 分 割 成 D AID ,两 部 
分 ， 即 


D = f(x,y) e D|A(x)= a} ; D =D-D 
则 在 特征 A 的 条 件 下 ， 集 合 D 的 基尼 指数 定义 为 


Gini(D, 4) = 2l Gini(D ) + l Gini¢(D,) (3.23) 
|D| |D] 


基尼 指数 Gini(D) 表 示 和 集合 D 的 不 确定 性 ， 基 尼 指 数 Gini(D,A) 表 示 经 A 
二 a 分 割 后 集合 DD 的 不 确定 性 。 基 尼 指 数值 越 大 ， 样 本 集合 的 不 确定 性 
也 就 越 大 ， 这 一 点 与 粹 相似 。 


图 5.7 显 示 二 类 分 类 问题 中 基尼 指数 Gini(p)、 粹 (单位 比特 ) AS 
H(p) 和 和 分 类 误差 率 的 关系 。 横 坐标 表示 概率 p， 纵 坐标 表示 损失 。 可 以 
ee 曲线 很 接近 ， 都 可 以 近似 地 代表 分 类 误差 


0.0 0.2 0.4 0.6 0.8 1.0 
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算法 5.6 (CART 生 成 算法 ) 

输入 : 训练 数据 集 D， 停 止 计算 的 条 件 ; 

输出 : CARIT 决 策 树 。 


根据 训练 数据 集 ， 从 根 结 点 开始 ， 递 归 地 对 每 个 结 点 进行 以 下 操作 ， 
构建 二 又 决策 树 : 


(1) 设 结 点 的 训练 数据 集 为 D， 计 算 现 有 特征 对 该 数据 集 的 基尼 指 

数 。 此 时 ， 对 每 一 个 特征 A， 对 其 可 能 取 的 每 个 值 a， 根 据 样 本 点 对 A 
= a 的 测试 为 “是 ”或 “ 否 ” 将 D 分 割 成 D ; 和 D ,两 部 分 ， 利 用 式 (5.25) 

计算 A=a 时 的 基尼 指数 。 


(2) 在 所 有 可 能 的 特征 A 以 及 它们 所 有 可 能 的 切 分 点 a 中 ， 选 择 基 尼 
指数 最 小 的 特征 及 其 对 应 的 切 分 点 作 为 最 优 特征 与 最 优 切 分 点 。 依 最 
优 特征 与 最 优 切 分 点 ， 从 现 结 点 生成 两 个 子 结 点 ， 将 训练 数据 集 依 特 
征 分 配 到 两 个 子 结 点 中 去 。 


(3) 对 两 个 子 结 点 递归 地 调用 (1) ， (2) ， 直 至 满足 停止 条 件 。 
(4) 生成 CART 决 策 树 。 


算法 停止 计算 的 条 件 坪 结 点 中 的 样本 个 数 小 于 预定 国 值 ， 或 样本 集 的 
(样本 基本 属于 同一 类 ) ， 或 者 没有 更 多 特 

Te 

例 5.4 ”根据 表 5.1 所 给 训练 数据 集 ， 应 用 CART 算 法 生成 决策 树 。 

解 ” 首 先 计 算 各 特征 的 基尼 指数 ， 选 择 最 优 特征 以 及 其 最 优 切 分 点 。 
仍 采用 例 5.2 的 记号 ,分别 以 A，，A，,，，A3，A4 表 示 年 龄 、 有 工作 、 
有 目 己 的 房子 和 信贷 情 况 4 个 特征 ， 并 以 1，2，3 表 示 年 龄 的 值 为 青 

年 、 中 年 和 老年 ， 以 1，2 表 示 有 工作 和 有 上 自己 的 房子 的 值 为 是 和 否 ， 
以 1，2，3 表 示 信 贷 情 况 的 值 为 非常 好 、 好 和 一 般 。 


求 特征 A 1 的 基尼 指数 : 


= 2 2 2 10 7 7 
Gini(D, A, = 1) = 一 | 2x 一 x| 1-=]|+—] 2x 一 x| 1-— | |=0.44 
15 5 5 15 10 10 


Gini(D, A, = 2) = 0.48 
Gini(D, A, = 3) = 0.44 


HFGin(D, A, =1TD 和 GinitD，Ai =3) 相 等 ， 且 最 小 ,所 以 Ai; =1 和 
A, =3 都 可 以 选 作 A ; 的 最 优 切 分 点 。 


求 特征 A ,和 A ,的 基尼 指数 : 


Gini(D, A, =1) = 0.32 
Gini(D, A, =1) = 0.27 


HFA 和 As 只 有 一 个 切 分 点 ， 所 以 它们 就 是 最 优 切 分 点 。 


求 特 征 A4 的 基尼 指数 : 


Gini(D, A, =D= 0.36 
Gini(D,4 =2)=0.47 
Gini(D,4 =3)=0.32 


Gini(D, A,=3)av/), Pr A, =3 为 A4 的 最 优 切 分 点 。 


ÆA, A>, Az, A JLAIIEF, Gini(D, A, =1T=0.27 最 小 ， 所 
以 选择 特征 A ?为 最 优 特征 ，As = 1 为 其 最 优 切 分 点 。 于 是 根 结 点 生成 
两 个 子 结 点 ， 一 个 是 叶 结 点 。 对 另 一 个 结 点 继续 使 用 以 上 方法 在 A 1 ， 
A，，A4 中 选择 最 优 特征 及 其 最 优 切 分 点 ， 结 果 是 A , =1。 依 此 计算 
得 知 ， 所 得 结 点 都 是 叶 结 点 。 


对 于 本 问题 ， 按 照 CART 算 法 所 生成 的 决策 树 与 按照 ID3 算 法 所 生成 的 
决策 树 完全 一 致 。 


5.5.2 CARTES 


CART EYRE MASE BE TR RI AY rig BY EE, ERR 
变 小 (模型 变 简单 ) ， 从 而 能 够 对 未 知 数据 有 更 准确 的 预测 。CART 
BY AZ HA PA A: 首先 从 生成 算法 产生 的 决策 树 To 压 端 开始 不 断 
豆 术 ， 直 到 To 的 根 结 点 ， 形 成 一 个 子 树 序 列 {To，T1,.…,Tn}; 然后 
通过 交 文 验证 法 在 独立 的 验证 数据 集 上 对 子 树 序列 进行 测试 ， 从 中 选 
择 最 优 子 树 。 


1. 前 校 ， 形 成 一 个 子 树 序列 
在 剪 校 过 程 中 ， 计 算 子 树 的 损失 函数 ; 

C (T)=C(T)+a|T| (5.26) 
其 中 ，T 为 任意 子 树 ，C(T) 为 对 训练 数据 的 预测 误差 (如 基尼 指 


数 ) ，|T| 为 子 树 的 叶 结 点 个 数 ，a>0 为 参数 ，C , (T) 为 参数 是 a 时 的 子 
树 T 的 整体 损失 。 参 数 a 权 衡 训练 数据 的 拟 合 程 度 与 模型 的 复杂 度 。 


对 固定 的 a， 一 定 存 在 使 损失 函数 C ,(T) 最 小 的 子 树 ， 将 其 表示 为 T。。 
T a EMR KZI ,(T) 最 小 的 意义 下 是 最 优 的 。 容 易 验 证 这 样 的 最 优 子 
树 是 唯一 的 。 当 a 大 的 时 候 ， 最 优 子 树 T, 仿 小 ， 当 a 小 的 时 候 ， 最 优 子 
树 T。 含 大。 极端 情况 ， 当 a= 0 时， 整体 树 是 最 优 的 。 当 aoo 时 ， 根 
结 点 组 成 的 单 结 点 树 是 最 优 的 。 


Breiman 等 人 证 明 : 可 以 用 递归 的 方法 对 树 进 行 前 校 。 将 a 从 小 增 大 ，0 
二 a0<a1<...<an<+00 ， 产 生 一 系列 的 区 间 [a;,ajw1)i 二 0,1,...,n; BAL 
得 到 的 子 树 序列 对 应 着 区 间 as[ai,aj)，i=0,1...n 的 最 优 子 树 序列 {T 
o> TyeoeT ah, FUP ERED © 


LPR, MEANT o FUREY AK ° OTT VERA RBA At, DA Aa 
树 的 损失 函数 是 


C (=CO+aw (5.27) 
以 t 为 根 结 点 的 子 树 T, 的 损失 函数 是 
C,(T)=C(T)+alT | (5.28) 
当 a=0 及 a 充 分 小 时 ， 有 不 等 式 
C(T)<C,(t) (5.29) 
当 a 增 大 时 ， 在 某 一 a 有 
C(T)=C,(t) (5.30) 


当 a 再 增 大 时 ， 不 等 式 (5.29) Ae ial > Ras SCU, T SATA 


-] 


的 损失 画 数 值 ， 而 t 的 结 点 少 ， 因 此 t 比 T, 更 可 取 ， 对 T, 进 行 前 枝 。 
Aik, WT, 中 每 一 内 部 结 点 t， 计 算 


2 SOA 
i 5.31 
g(t) ne ( ) 


ERIR BU BE MAA ED BRE ° FET o PH EgO AIT 
将 得 到 的 子 树 作 为 T; ， 同 时 将 最 小 的 g(D 设 为 a1。T1 为 区 间 [a a) 
最 优 子 树 。 


如 此 喜 梳 下 去 ， 直 至 得 到 根 结 点 。 在 这 一 过 程 中 ， 不 断 地 增加 a 的 值 ， 
产生 新 的 区 间 。 


2. 在 剪 枝 得 到 的 子 树 序列 T,, 工 ; ,.….,T, 中 通过 交叉 验证 选取 最 优 子 
PIT 


a 


具体 地 ， 利 用 独立 的 验证 数据 集 ， 测 坛子 树 序 列 ToT1，.Tn 中 各 标 
子 树 的 平方 误差 或 基尼 指数 。 平 方 误 差 或 基尼 指数 最 小 的 决策 树 被 认 
为 是 最 优 的 决策 树 。 在 子 树 序 列 中 ， 每 棵 子 树 Tj,T,,.….,Th 都 对 应 于 
一 个 参数 a 1,a5,.…,an。 所 以 ， 当 最 优 于 树 Tj 确定 时 ， 对 应 的 ak 也 确定 
了 ， 即 得 到 最 优 决 策 树 T。。 


现在 写 出 CART 剪 枝 算法 。 

算法 5.7 (CART 前 枝 算法 ) 

输入 : CART 算 法 生成 的 决策 树 To; 
输出 ， 最 优 决策 树 T。。 


(1) 设 k==0,，T=To。 
(2) 设 a=+oo。 
(3) 自 下 而 上 地 对 各 内 部 结 点 t 计 算 C(T ,)， 人 IT ,| 以 及 


C(t)-C(7,) 
Ti-l 


a = min(æ,g(t)) 


g(t) = 


AE, T, 表 示 以 {为 根 结 点 的 子 树 ，C(T1) 是 对 训练 数据 的 预测 误 
Z, [T ÆT BIARN o 


(4) BET PJENA At, MWREgOSa, T, HAH 
结 点 t 以 多 数 表决 法 决定 其 类 ， 得 到 树 TT。 


(5) Wk=k+1, ak =a, T, =T° 
(6) 如 果 T 不 是 由 根 结 点 单独 构成 的 树 ， 则 回 到 步 台 (4) 。 
(7) 采用 交叉 验证 法 在 子 树 序列 To,T 1 ,.…..,T, 中 选取 最 优 子 树 T。。 


本 章 概要 


1. 分 类 决策 树 模 型 是 表示 基于 特征 对 实例 进行 分 类 的 树 形 结构 。 决 策 
树 可 以 转换 成 一 个 if-then 规 则 的 集合 ， 也 可 以 看 作 古 定义 在 特征 空间 
划分 上 的 类 的 条 件 概 率 分 布 。 


2. 决策 树 学 习 旨 在 构建 一 个 与 训练 数据 拟 合 很 好 ， 并 且 复 杂 度 小 的 决 
策 树 。 因 为 从 可 能 的 决策 树 中 直接 选取 最 优 决 策 树 是 NP 完 全 问题 。 现 
实 中 采用 启发 式 方法 学 习 次 优 的 决策 树 。 

决策 树 学 习 算 法 包括 3 部 分 : 特征 选择 、 树 的 生成 和 树 的 剪 校 。 负 用 的 
算法 有 ID3、C4.5 和 CART。 

3. 特征 选择 的 目的 在 于 选取 对 训练 数据 能 够 分 类 的 特征 。 特 征 选 择 的 
关键 是 其 准则 。 常 用 的 准则 如 下 : 


(1) 样本 集合 D 对 特征 A 的 信息 增益 (D3) 
g(D, A) = H(D)- H(D| A) 
|C, | 


K ~ 
IC. 
H(D)=-) — log, 一 一 一 
dp iog TD) 


n D 
H(D\ A= SCH) 
i=l 


EA, HDEÆŽGEÆDHJM, H(D,)22CRSD WA, HOANNE 
RDI REAR > D ;是 D 中 特征 A 取 第 i 个 值 的 样本 子 集 ，C ,是 
DD 中 属于 第 k 类 的 样本 子 集 。n 是 特征 A 取 值 的 个 数 ，K 是 类 的 个 数 。 


(2) 样本 集合 D 对 特征 A 的 信息 增益 比 (C4.5) 


g(D, A) 
DBD: A) == 
| ) H(D) 


EH DAER Sis, H(D) eRe DHII ° 


(3) 样本 集合 D 的 基尼 指数 (CART) 


dan SIIC 
Gini(D)=1- >》 D 


k=l 


特征 A 条 件 下 集合 D 的 基尼 指数 : 


Gini(D, A) = init )+ TA iicn. ) 


4. IR AYA A o A fe aK» fe a Pe A EE tE 
数 最 小 作为 特征 选择 的 准则 。 决 策 树 的 生成 往往 通过 计算 信息 增益 或 
其 他 指标 ， 从 根 结 点 开始 ， 弟 归 地 产生 决策 树 。 这 相当 于 用 信息 增益 
或 其 他 准则 不 断 地 选取 局 部 最 优 的 特征 ， 或 将 训练 集 分 割 为 能 够 基本 
正确 分 类 的 子 集 。 


5. 决策 树 的 可 术 。 由 于 生成 的 决策 树 存在 过 拟 合 问题 ， 需 要 对 它 进 行 
喜 校 ， 以 位 化 学 到 的 决策 树 。 决 策 树 的 均 枝 ， 往 往 从 已 生成 的 树 上 藤 
掉 一 些 叶 结 点 或 叶 结 点 以 上 的 子 树 ， 并 将 其 父 结 点 或 根 结 点 作为 新 的 
叶 结 点 ， 从 而 简化 生成 的 决策 树 。 


继续 阅读 


介绍 决策 树 学 习 方 法 的 文献 很 多 ， 关 于 ID3 可 见 文献 [1]，C4.5 可 见 文 
献 [2]，CART 可 见 文献 [3,4]。 决 策 树 学 习 一 般 性 介绍 可 见 文献 [5 一 7]。 


与 决策 树 类 似 的 分 类 方法 还 有 决策 列表 (decision list) 。 决 策 列表 与 
决策 树 可 以 相互 转换 名， 决策 列表 的 学 习 方法 可 参见 文献 [9]。 


习题 


5.1 根据 表 5.1 所 给 的 训练 数据 集 ， 利 用 信息 增益 比 (C4.5 算 法 ) 生成 
(REY o 


5.2 已 知 如 表 5.2 所 示 的 训练 数据 ， 试 用 平方 误差 损 失 准 则 生成 一 个 二 
又 回归 树 。 


25.2 ”训练 数据 表 


5.3 ”证 明 CART 剪 枝 算 法 中 ， 当 a 确 定时 ， 存 在 唯一 的 最 小 子 树 T ,使 
损失 函数 C , (了 最 小 。 


5.4 ”证 明 CART 藤 村 算法 中 求 出 的 子 树 序 列 {To，T1,.…….,T,} 分 别 是 区 
Flac(a ; aj, ) 的 最 优 子 树 T,。， 这 里 i=0,1,...,n，0==a0<al<...<an<+o0 
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[1]。 此 例 取 自 参考 文献 [5] 。 
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逻辑 斯 详 回 归 (logistic regression) 是 统计 学 习 中 的 经 典 分 类 方法 。 最 
大 焕 是 概率 模型 学 习 的 一 个 准则 ， 将 其 推广 到 分 类 问题 得 到 最 大 炉 模 

型 (maximum entropy model) 。 逻 辑 斯 谤 回归 模型 与 最 大 炉 模 型 都 属 

于 对 数 线性 模型 。 本 章 首 先 介 绍 逻 辑 斯 谤 回归 模型 ， 然 后 介绍 最 大 炉 

模型 ， 最 后 讲述 逻辑 斯 育 回 归 与 最 大 烯 模 型 的 学 习 算 法 ， 包 括 改进 的 

从 代 尺度 算法 和 拟 牛 顿 法 。 


6.1 逻辑 斯 谤 回归 模型 
6.1.1 ”逻辑 斯 详 分 布 


首先 介绍 逻辑 斯 诵 分 布 (logistic distribution) ° 


定义 6.1 (逻辑 斯 谤 分 布 ” 设 X 是 连续 随机 变量 ，X 服 从 逻辑 斯 谤 分 
布 定 指 X 具 有 下 列 分 布 函数 和 密度 函数 : 


] 


RE 信和 同一 (6.1) 
f(x) = F(x) = 7 ae (6.2) 


式 中 ， 大 为 位 置 参数 ，Y >0 为 形状 参数 。 
逻辑 斯 谤 分 布 的 密度 函数 f(x) 和 分 布 画 数 F(x) 的 图 形 如 图 6.1 所 示 。 分 布 


函数 属于 逻辑 斯 谱 画 数 ， 其 图 形 是 一 条 S 形 曲线 (sigmoid curve) 。 访 
曲线 以 点 [4 为 中 心 对 称 ， 即 满足 


] i l 
F(—-x+ u)—-—=-F(x+u)+— 
( 4) 5 ( a 


f(x) F(x) 


x x 
图 6.1 Agr) THAN RS ERS A 


曲线 在 中 心 附 近 增 长 速度 较 快 ， 在 两 端 增长 速度 较 慢 。 形 状 参数 7 的 
值 越 小 ， 曲 线 在 中 心 附近 增长 得 越 快 。 


6.1.2 ”二 项 逻辑 斯 请 回 归 模 型 


二 项 逻辑 斯 详 回 归 模 型 (binomial logistic regression model) 是 一 种 分 
类 模型 ， 由 条 件 概 率 分 布 P(Y|X) 表 示 ， 形 式 为 参数 化 的 逻辑 斯 诵 分 
布 。 这 里 ， 随 机 变量 X 取 值 为 实数 ， 随 机 变量 Y 取 值 为 1 或 0° 我 们 通过 
监督 学 习 的 方法 来 估计 模型 参数 。 


(逻辑 斯 谤 回归 模型 ”二 项 逻辑 斯 谤 回归 模型 是 如 下 的 条 件 


exp(w+x+b) 


P(Y =1|x)= (6.3) 


1+exp(w-x+b) 


P(Y =0|x)=——___— (6.4) 
1+exp(w-x+b) 


这 里 ，xeR "是 输入 ，Ye{0,1} 是 输出 ，wEeR" 和 beR 是 参数 ，w 称 为 权 
值 向 量 ，b 称 为 偏 置 ，w'.x 为 w 和 x 的 内 积 。 


对 于 给 定 的 输入 实例 x， 按 照 式 (6.3) 和 式 (6.4) 可 以 求 得 P(Y = 11x) 
和 P(Y 二 0|x)。 逻辑 斯 谤 回归 比较 两 个 条 件 概率 值 的 大 小 ， 将 实例 x 分 
到 概率 值 较 大 的 那 一 类 。 


有 时 为 了 方便 ， 将 权 值 向 量 和 输入 回 量 加 以 扩充 ， 仍 记 作 w，x， 即 w 
=(woiwo,wojb)7，xX=(Xox2o, XI。 这 时 ， 逻 辑 斯 详 回 归 
模型 如 下 : 


exp(w. x) 


P(Y =1|x)= (6.5) 


1+ exp(w. x) 
] 


P(Y =0| x) = 一 一 (0.0) 
1+ exp(w- x) 


现在 考 碍 逻辑 斯 详 回 归 模型 的 特点 。 一 个 事件 的 几率 (odds) 是 指 该 
事件 发 生 的 概率 与 该 事件 不 发 生 的 概率 的 比值 。 如 采 事 件 发 生 的 概率 
是 p， 那 么 该 事件 的 几率 是 二 5 ， 该 事件 的 对 数 几率 (log odds) 或 logit 


logit(p)= log- p 


SHEHA EIA, H (6.5) 与 式 (6.6) 得 


PU =i 
lo —— ES WX 
1- P(Y =1|x) 
这 束 是 说 ， 在 逻辑 斯 请 回归 模型 中 ， 输 出 Y=1 的 对 数 几 率 是 输入 x 的 
线性 函数 "或 者 说 ， 葵 出 Y 三 1 的 对 数 几 率 是 由 输入 x 的 线性 函数 表示 
的 模型 ， 即 逻辑 斯 诵 回归 模型 。 
换 一 个 角度 看 ， 考 虑 对 输入 x 进 行 分 类 的 线性 函数 wx， 其 值 域 为 实数 
域 。 注 意 ， 这 里 xeR w ,weR "'。 通 过 逻辑 斯 讨 回 归 模型 定义 式 
(6.5) 可 以 将 线性 画 数 wx 转换 为 概率 : 

P(Y sijaj 
1+ exp(w-x) 
这 时 ， 线 性 函数 的 值 越 接 近 正 无 穷 ， 概 率 值 就 越 接 近 1;， 线 性 函数 的 值 
越 接 近 负 无 穷 ， 概 率 值 就 越 接 近 0 (如 图 6.1 所 示 ) 。 这 样 的 模型 就 是 
逻辑 斯 谤 回归 模型 。 


6.1.3 ”模型 参数 估计 


逻辑 斯 谤 回归 模型 学 习 时 ， 对 于 给 定 的 训练 数据 集 T= {(x1，y1),(X2 
， y2),...,(X N,Y N)}, HER, XiER", y; €{0,1}, 可 以 应 用 极 大 似 然 估 
计 法 估计 模型 参数 ， 从 而 得 到 逻辑 斯 谤 回归 模型 。 


设 : Pl(Y=1|x)=x(x), P(Y =0|x)=1-2(x) 
{PARR BA 


[re i-r” 


WY US KHR 


L(w) = Yb, log z(x,) + (1— y, log — x(x,))] 


= S| bas + log(1 — (x; »| 


=Š iy, (w-x,)—log(1+ exp(w- x, )] 


对 L(w) 求 极 大 值 ， 得 到 w 的 估计 值 。 


E, P E 数 为 目标 函数 的 最 优化 问题 。 逻 辑 
斯 谤 回归 学 习 中 通常 采用 的 方法 十 梯度 下 降 法 及 拟 牛 顿 法 。 


假设 w 的 极 大 似 然 估 计 值 是 Ww ， 那 么 学 到 的 逻辑 斯 详 回 归 模 型 为 


exp(w- x) 
1+ exp(w- x) 
] 
1+ exp(w-x) 


6.1.4 ZTA r E 


上 面 介 绍 的 逻辑 斯 详 回 归 模 型 是 二 项 分 类 模型 ， 用 于 二 类 分 类 。 可 以 
将 其 推广 为 多 项 逻辑 斯 详 回 归 模 型 multi-nominal logistic regression 
model) ， 用 于 多 类 分 类 。 假 设 离散 型 随机 变量 Y 的 取 值 集合 是 
(2 JK}. 那么 多 项 逻辑 斯 详 回 归 模 型 是 


P(Y =1|x)= 


P(Y =0|x)= 


P(Y =k | x)=— PO) _, k =1,2.---.K-1 (6.7) 
1+ > exp(w, .x) 
k=1 
i l i 
PO =K | x)= Ba (6.8) 


1+ > exp(w, +x) 


k=1 


这 里 ,xeR™ wi ERw o 
二 项 多 辑 斯 谤 回归 的 参数 估计 法 也 可 以 推广 到 多 项 逻辑 斯 谤 回归 。 


6.2 BARRA 
BARA (maximum entropy model) FAs AHH JR PETES o E 


ERROR- BWR, SURES, Beat 
SANGRE SES OTE 。 


6.2.1 BAR 


Bat Wiel irk BS A) — ANEN] RAAR, AAO) SS 
模型 时 ， 在 所 有 可 能 的 概率 模型 (W) P, ORR ae a AY) 
模型 。 通 利用 约束 条 件 来 确定 概率 模型 的 集合 ， 所 以 ， 最 大 烂 原理 也 
可 以 表述 为 在 满足 约束 条 件 的 模型 集合 中 选取 箭 最 大 的 模型 。 


假设 离散 随机 变量 X 的 概率 分 布 是 P(X)， 则 其 炉 《参照 5.2.2 节 ) 是 


H(P)=—2_P(x)log P(x) (6.9) 


炉 满 足下 列 不 等 式 : 
0=H(P)<log|X | 


式 中 ，|X| 是 X 的 取 值 个 数 ， 当 且 仅 当 X 的 分 布 是 均匀 分 布 时 右边 的 等 
FRA o ADE, SKRAST, MERAK ° 


HMH, BARREN N FARRE H VA E ES 
实 ， 即 约束 条 件 。 在 没有 更 多 信息 的 情况 下 ， 那 些 不 确定 的 部 分 都 
wee “SF AY EA” © Bae A Mi ee BG TY BAR Fe NS AY HE o “SE EY 
BE’ RA DEME, TOMA ETS ERRUER © 


HE, SEMI BF AIR o. o 


例 6.1 ”假设 随机 变量 Xx 有 5 个 取 值 {A，B，C，D，E}， 要 估计 取 各 个 
值 的 概率 P(A),P(B),P(C),P(D),P(E)。 


解 ”这 些 概率 值 满足 以 下 约束 条 件 : 
P(A) + P(B) + P(C) + P(D) + P(E) =1 
满足 这 个 约束 条 件 的 概率 分 布 有 无 穷 多 个 。 如 琳 没 有 任何 其 他 信息 ， 


仍 要 对 概率 分 布 进行 倍 计 ， 一 个 办 法 整 是 认为 这 个 分 布 中 取 各 个 值 的 
概率 是 相等 的 : 


P(A) = P(B) = P(C) = P(D) = P(E) == 


ae 了 对 事实 的 无 知 。 因 为 没有 更 多 的 信息 ， 这 种 判断 是 合理 


有 了 时， 能 从 一 些 先 验 知识 中 得 到 一 些 对 概率 值 的 约束 条 件 ， 例 如 : 


3 
P(A) + P(B) = — 
(A) + P(B) 0 
P(A) + P(B) + P(C) + P(D) + P(E) =1 


满足 这 两 个 约束 条 件 的 概率 分 布 仍然 有 无 穷 多 个 。 在 缺少 其 他 信息 的 
情况 下 ， 可 以 认为 A 与 B 是 等 概率 的 ，C，D 与 E 是 等 概率 的 ， 于 是 ， 


pay Ie 
P(A) = P(B) = — 
eel ar, 


| 7 
P(C) = P(D) = P(E) = — 
(C)= P(D) = P(E) == 


如 果 还 有 第 3 个 约束 条 件 : 


P(A)+ P(C) => 
P(A) + P(B) =— 
10 


P(A) + P(B) + P(C)+ P(D) + P(E) =1 


可 以 继续 按照 满足 约束 条 件 下 求 等 概率 的 方法 估计 概率 分 布 。 这 里 不 
再 继续 讨论 。 以 上 概率 模型 学 习 的 方法 正 是 遵循 了 最 大 烂 原理 。 


图 6.2 提 供 了 用 最 大 炉 原 理 进行 概率 模型 选择 的 几何 解释 。 概 率 模 型 集 
合 P 可 由 欧 氏 空间 中 的 单纯 形 (simplex) 表示 ， 如 左 图 的 三 角形 (2- 
单纯 形 ) 。 一 个 点 代表 一 个 模型 ， 整 个 单纯 形 代 表 模 型 集合 。 右 图 上 
的 一 条 直线 对 应 于 一 个 约束 条 件 ， 直 线 的 交集 对 应 于 满足 所 有 约束 条 
件 的 模型 集合 。 一 般 地 ， 这 样 的 模型 仍 有 无 穷 多 个 。 学 习 的 目的 是 在 
Dee a a 
J 一 个 准则 。 


概率 模型 空间 满足 约束 条 件 的 模型 集合 


图 6.2 ”概率 模型 集合 


6.2.2 BARRE ML 


最 六 入 原理 是 统计 学 习 的 一 般 原 理 ， 将 它 应 用 到 分 关 得 到 最 入 炳 本 
型 o 


假设 分 类 模型 是 一 个 条 件 概 率 分 布 PCY|X)，XEexSER“" 表 示 输 入 ，YeEy 
表示 输出 ，x 和 站 分 别 是 输入 和 输出 的 集合 。 这 个 模型 表示 的 是 对 于 给 
定 的 输入 XX， 以 条 件 概 率 P(Y|X) 输 出 Y。 

给 定 一 个 训练 数据 集 


T = { (x, > Yı ), is ’ Və ), “Ts (Xx 5 Vy ) } 


学 习 的 目标 是 用 最 大 粹 原理 选择 最 好 的 分 类 模型 。 


首先 考虑 模型 应 该 满足 的 条 件 。 给 定 训练 数据 集 ， 可 以 确定 联合 分 布 
P(X,Y) 的 经 验 分 布 和 边缘 分 布 P(X) 的 经 验 分 布 ， 分别 以 5 (X,Y) 和 5 (X) 
表示 。 这 里 ， 

A =x F =y) 


P(X =x, Y = y)= 
' ») N 


Pega A 
N 


其 中 ，v(GX=xY= 妨 表示 训练 数据 中 样本 (X,Y) 出现 的 频数 ，v(X= 
X) 表 示 训 练 数据 中 输入 x 出 现 的 频数 ，N 表 示 训 练 样本 容量 。 


用 特征 函数 (feature function) f(X,Y) 描 述 输入 x 和 输出 y 之 间 的 某 一 个 
事实 。 其 定义 是 


f(x,y) 1, xz 与 ?满足 东 一 事实 
x,y) = i 
iii 0, 否则 


EE-D ARKA, Hx ANUEN, GWA 

0 o 

特征 函数 f(X,Y) 关 于 经 验 分 布 5 (X,Y) 的 期 望 值 ， 用 E PORT o 
EPES PRIED 


特征 函数 f{(X,Y) 关 于 模型 P(Y|X) 与 经 验 分 布 5 (X) 的 期 望 值 ， 用 Ep(f) 表 
示 o 


7. 


E,(f) = >, P(x)P(y |x) f(x,y) 


A ABZ it AT MERA A SES 
日 等 ， 


Ep) =E) (6.10) 


af 
Y P(x)P(y |x) (x,y)= 2 P(x, y) f(x,y) (6.11) 


我 们 将 式 (6.10) 或 式 (6.11) 作为 模型 学 习 的 约束 条 件 。 假 如 有 n 个 
特征 函数 f;(X,Y)，i= 12,..n， 那 么 就 有 n 个 约束 条 件 。 


定义 6.3 (RARE) ”假设 满足 所 有 约束 条 件 的 模型 集合 为 


C={PeP|E,(f)=E;%), i=1,2,---,n} (6.12) 
RE STE EPS 5 APY |X) EDS REA 
H(P)=-> P(x)P(y| x) log P(y | x) (6.13) 


WU RA RS OB SR PART (P) se A A Bn oo SCAT 
HAZ RIC 


6.2.3 BAA 45) 
SOI LU NOE it EOI T° BRU 
习 可 以 形式 化 为 约束 最 优化 问题 。 


对 于 给 定 的 训练 数据 集 T={(xj ，y1),(X2，y2),…,(XNyYN)} 以 及 特征 
图 数 f (X,Y)，i 二 1,2,.….,n， 最 大 焕 模 型 的 学 习 等 价 于 约束 最 优化 问 
题 : 


max H(P)= 2 P(x)P(y | x)log P(y |x) 
s.t. E) =E) i=1,2;-;n 


> P(y|x)=1 


按照 最 优化 问题 的 习惯 ， 将 求 最 大 值 问 题 改 写 为 等 价 的 求 最 小 值 问 


题 : 


min —H(P)= 2 P(x)P(y | x)log P(y | x) (6.14) 


st. Ep(f) -Es(f)=0; i=1,2,---,n (6.15) 


> Py |x) =! (6.16) 


求解 约束 最 优化 问题 (6.14) ~ (6.16) , Aree cee, Wie AR 
型 学 习 的 解 。 下 面 给 出 具体 推导 。 


这 里 ， 将 约束 最 优化 的 原始 问题 转换 为 无 约束 最 优化 的 对 侦 问 题 “。 
通过 求解 对 偶 问题 求解 原始 问题 。 


首先 ， 引 进 拉 格 朗 日 乘 子 wo,w 1,w,,.…w。， 定 义 拉 格 朗 日 画 数 
L(P,w): 
L(P,w)=-H(P)+ w, f - LPO | o) Sm -E,(f,)) 
= 2L POP | x)log P(y| x) +w, í - DPC y| ») 
+ > È P(x, y) fy) — 2 PPO | x) F(x, »| (6.17) 


最 优化 的 原始 问题 是 


min max L(P,w) (6.18) 
对 侦 问 题 是 
max min L(P,w) (6.19) 


由 于 拉 格 朗 日 函数 LOPwWw) 是 P 的 凸 函 数 ， 原 始 问题 (6.18) ARS OTS 
问题 (6.19) 的 解 是 等 价 的 。 这 样 ， 可 以 通过 求解 对 偶 问 题 (6.19) 来 
求解 原始 问题 (6.18) 。 


首先 ， 求 解 对 偶 问 题 (6.19) 内 部 的 极 小 化 问题 
min L(P,w). min L(P,w) 是 w 的 函数 ， 将 其 记 作 


¥(w) = min L(P, w) = L(P,,w) (6.20) 
到 (w) 称 为 对 偶 函 数 。 同 时 ， 将 其 解 记 作 

P, =argmin L(P, w) = P,(y| x) (6.21) 
具体 地 ， 求 LPw) 对 PCYIX) 的 偏 导数 


OL(P,w) 
OP(y |x) 


=>) P(x)(log P(y| x) +1)- > m - > Pwd w, f(x, ») 
xy y i=l 


x,y 


= YP co{log Pv) +1- Wo Swf) 


令 偏 导数 等 于 0， 在 5 (x)>0 的 情况 下 ， 解 得 


arlene 


Poy|s)=er0| SmfCs D+ exp(1— w) 


f=] 


由 于 Zrol9=1， 得 


Py|x=5 z op [> T (6.22) 


w 


其 中 ， 


Z (x)= Ze 位 w, f(x, ») (6.23) 
y i=l 


Z ,CO 称 为 规范 化 因子 ;fi(X,Y) 是 特征 函数 ，wi 是 特征 的 权 值 。 由 式 
(6.22) 、 式 (6.23) 表示 的 模型 P、 =P (YNNE o 
E, wre A SV A] o 


之 后 ， 求 解 对 偶 问 题 外 部 的 极 大 化 问题 
max ¥ (w) (6.24) 


将 其 解 记 为 w*， 即 
w =argmax ¥ (w) (6.25) 

这 束 是 说 ， 可 以 应 用 最 优化 算法 求 对 个 函数 业 (w) 的 极 大 化 ， 得 到 w* 
， 用 来 表示 PseC“。 这 里 ，P ==P := 二 PW:(Y|X) 是 学 习 到 的 最 优 模 型 
(最 大 炉 模 型 )。 也 就 是 说 ， 最 大 炉 模 型 的 学 习 归 结 为 对 侦 函 数 赤 

(w) 的 极 大 化 。 
例 6.2 ”学 习 例 6.1 中 的 最 大 精 模 型 。 


解 为 了 方便 ， 分 别 以 y 1,y 2Y 3Y 4Y 5 KZRA, B, C, DIE, TE 
BARRE E o WN I ee 


min —H(P)= > P(y,)log P(,) 
i=] 


st PO) + PO) = Pi) +0) = 
> Po, )= YP, )=1 
引进 拉 格 朗 日 乘 子 w ow 1 ， 定 义 拉 格 朗 日 画 数 


5 5 
L(P,w) = $ P(y,)log P(y,) + wi(POD+PO.)- 2 | (PO) -1| 
i=l i=] 


根据 拉 格 衣 日 对 偶 性 ， 可 以 通过 求解 对 偶 节 优化 问题 得 到 原始 最 优化 
问题 的 解 ， 所 以 求解 


max min L(P,w) 
w 


首先 求解 LOPWw) 关 于 P 的 极 小 化 问题 。 为 此 ， 固 定 wow1， 求 俩 导数 : 


OL(P,w) 
=l+log P(y,)+w,+wy, 
IPO.) gP) +w, 0 
em. =1+logP(y,)+w, + w 
oP(y,) 
OL(P,w) 
—— =1+log P(y),)+w, 
aP(y.) gP(y;) + Wo 
ae SW) =1+log P(y,)+w, 
OP(y,) 
OL(P,w) 
=1+log P(y,)+w 
OP(y;) EE 


令 各 偏 导数 等 于 0， 解 得 


p(y) = POy,) =e" 
PP 


: , oe ey -mwi last 一 wD 一 ] _3 —r 
min L(P,w) = L(P,,w) =—2e 3e 0 Wi — Wy 
再 求解 LP 、,w) 天 于 w 的 极 大 化 问题 : 


-m-n 一 MI 一 3 
max L(P,,w)=-2e"""! -3e ™] -—w — w, 
w 10 


分 别 求 LIP ,w) 对 wo0,w 1 的 偏 导数 并 令 其 为 0， 得 到 


于 是 得 到 所 要 求 的 概率 分 布 为 
3 
P(y,) = P(y,) = 0 


ol 
30 


6.2.4 RADA ATT 


SVE BARRA >) DVS, A ee st (6.22) 、 式 
(6.23) 表示 的 条 件 概率 分 布 。 下 面 证 明 对 偶 函 数 的 极 大 化 等 价 于 最 
大 和 精 模 型 的 极 大 似 然 售 计 。 


已 知 训练 数据 的 经 验 概 率 分 布 声 (X,Y)， 条 件 概率 分 布 PCYIX) 的 对 数 似 


P(y;) = P(y,) = Ps) 


L;(P,) =logT [PO | xP = 7 P(x, y)logP(y | x) 


SREB DAP (Y |X) ERAKAR (6.22) 和 (6.23) 时 ， 对 数 似 然 
函数 LP (P 、) 为 


L;(P,)= >) P(x, y) logP(y | x) 
= a P(x, > w f,(x, y) — >, P(x, y) log Z,, (x) 
ny isk = 
= pa P(x, ny w, f(x,y) — > P(x) log Z,, (x) (6.26) 
Fa a Oh (BER BY” (w)。 由 式 (6.17) 及 式 (6.20) 可 得 
¥(w) = ZIP | x)log P,Q |x) 
+ 3 w, [> P(x,y) f(x,y) - 2 P(x)P.(y|x)f cc 
= PP) wf(x,y) + >) PRP, | »| log P,(y|x)- AE) 
- DP) wf) EPOP, 1log, 0) 


=》 Pix, y) Y wf(x,y) - P(x)logZ, (x) (6.27) 
Yy i=! ¥ 


BA PARAPO) 。 
比较 式 (6.26) 和 式 (6.27) ， 可 得 
Y(w)=L,(P,) 
BPA KZE (w)SE HT TOT BULA EL pw), Tae uke T RAR 


cite FES Xf fs Bs ORAS Pe AI A TR PRATT IX — 


TORE, BC WR A A) NF A AOR TUR BURA 
BO) EO A CH [Ale 。 


ALAS RE RAO 。 


| n o 
P(y|x)= v f(xy 6.28 
(| x) Fey Das) (6.28) 


ZN ? 


Z, {x)= Lew > w h(x, »| (6.29) 


这 里 ，xeR AIA, ye{l,2,..,.K} AIH, weR ANIA, f; 
(X,Y)，i=12,…. 为 任意 实 值 特征 函数 。 


最 大 烂 模型 与 逻辑 斯 详 回 归 模 型 有 类 似 的 形式 ， 它 们 又 称 为 对 数 线性 
模型 (log linear model) 。 模 型 学 习 就 是 在 给 定 的 训练 数据 条 件 下 对 
模型 进行 极 大 似 然 估 计 或 正则 化 的 极 大 似 然 估计 。 


63 ”模型 学 习 的 最 优化 算法 


逻辑 斯 席 回 归 模 型 、 最 大 信 模 型 学 习 归 结 为 以 似 然 琅 数 为 目标 函数 的 
最 优化 问题 ， 通 稼 通过 和 迭代 算法 求解 。 从 最 优化 的 观点 看 ， 这 时 的 目 
标 函 数 具 有 很 好 的 性 质 。 它 是 光滑 的 串 画 数 ， 因 此 多 种 最 优化 的 方法 
都 适用 ， 保 证 能 找到 全 局 最 优 解 。 香 用 的 方法 有 改进 的 欠 代 大 度 法 、 
人 


下 面 介绍 基于 改进 的 太 代 尺度 法 与 拟 牛 顿 法 的 最 大 焕 模 型 学 习 算 法 。 
梯度 下 降 法 参阅 附录 A 。 


6.3.1 ”改进 的 迭代 尺度 法 


改进 的 迭代 尺度 法 (improved iterative scaling, IIS) fe—FPR ATE 
型 学 习 的 最 优化 算法 。 


CA ARAL A 


P(y|x)= 


| Bos tte. ies 
-€X w, f(x,y) 
Z,,(x) (È 


Ri 


Z,,(x) = Ze $ w f(x, »| 
对 数 似 然 画 数 为 | 
L(w) = > P(x, ny wf») E Pla) logZ, (x) 
RAL UA OUR TESTS, ASM ALAR 


IIS 的 想法 是 : (Bsc ARAL SS BAS IF] Ba Ew = (WW, Wp)" 
， 我 们 希望 找到 一 个 新 的 参数 向 量 w+6 =(w 1 td 1.W2td WwWntBn 
)"， 使 得 模型 的 对 数 似 然 画 数值 增 大 。 如 有 果 能 有 这 样 一 种 参数 向 量 更 

新 的 方法 T (w):w 一 w+6 ， 那 么 整 可 以 重复 使 用 这 一 方法 ， 直 至 找到 对 
数 似 然 画 数 的 最 大 值 。 


对 于 给 定 的 经 验 分 布 5 (X,Y)， 模 型 参数 从 wa 到 w+6 ， 对 数 似 然 画 数 的 


dU 2 PGs y)logP., .(y|x)- 2 Pts y)log P. (y| x) 
= 2 全 NYA Cs y)- > Palos = 
利用 不 等 式 
-loga2l-a, a>0 


建立 对 数 似 然 画 数 改 变量 的 下 界 : 


5 (x) 
Z,.(x) 


TP DR evines Saran 


L(w+ô)- L> EPEE AS, (x,y)+1- Lio n = 


将 石 端 记 为 

A(S|w) = DP PSS +1- LPL P| exp LF (%y) 
于 是 有 

L(w+ 0)-—L(w) = A(0 |w) 

BUA(S [w) a XT BULA EK aE BH — OBE 。 
如 采 能 找到 适当 的 6 使 下 界 A(6 wiem, DAIR a Ste 
a e Am, KAA |w) 中 的 6 是 一 个 同 量 ， 舍 有 多 个 变量 ， 不 易 同时 
优化 。IS 试 图 一 次 只 优化 其 中 一 个 变量 6 ; ， 而 固定 其 他 变量 5 ,, 


ižj o 


为 达到 这 一 目的 ，IIS 进 一 步 降低 下 界 A(6 |w。 上 有 具体 地 ，IIS 引 进 一 个 
量 f*(X,Y), 


ENL) 


因为 f; 是 二 值 画 数 ， 故 f*(x,y) 表 示 所 有 特征 在 (X,Y) 出 现 的 次 数 。 这 
FE, AG |w) 可 以 改写 为 


5, f, (x, ») 
Fep 


(6.30) 


利用 指数 函数 的 凸 性 以 及 对 任意 i， AAE Í = 2 >0 Ay Í a 号- Se: ace 
根据 Jensen 不 等 式 ， 得 到 


A(5 | w) = 2 Pex, DÈS, y)+1- -L PORR, Gly (x, vy 


a S y) r S y) 
于 是 式 (6.30) 可 改写 为 


oq AY) 5 pr(x »)<} ELED expla fy) 


S(x,y) 
(x,y) 


As | WZ Pls, NEIL: y)+1 “a PALA ving 4 Jas (x,y)) 
(6.31) 


记 不 等 式 (6.31) 右 端 为 
B(d | w) = yy P(x,y)Y SL (x, y)+1- Poy P(y| oy LD. ea) 
于 是 得 到 
L(w+6)-L(w) = B(d |w) 
这 里 ， BS |w) 是 对 数 似 然 画 数 改变 量 的 一 个 新 的 (相对 不 紧 的 ) 下 


求 B(6 |w) 对 6 ;的 偏 导数 : 


OB(d | w) 


35 -ZF yf(x,y) — DPD PAY DLC, y)exp(d, f(x,y) 


(6.32) 
在 式 (6.32) 里 ， 除 6 ;外 不 含 任何 其 他 变量 。 令 偏 导数 为 0 得 到 


S POOP. (y | Fv) exp(6, S (x,y) = Eh) (6.33) 


于 是 ， 依 次 对 6 ;求解 方程 (6.33) 可 以 求 出 5 。 


这 束 给 出 了 一 种 求 w 的 最 优 解 的 大 代 算法 ， 即 改进 的 迭代 尺度 算法 
IIS。 


算法 6.1 (改进 的 迭代 尺度 算法 IIS) 
输入 : 特征 函数 ff 经 验 分 布 5 (X,Y), REP (YIX) 
输出 : 最 优 参数 值 w  ; 最 优 模型 Pw e 
(1) 对 所 有 ie{1,2,...,n}， 取 初 值 w; =0 
(2) 对 每 一 ie{1,2,...,n}: 
S POPO | x) f(x,y)exp(6f "(x,y)) = E) 
的 解 ， 这 里 ， 
= > Fy 

(b) 更 新 w; 值 : w; ~wi+6; 

(3) 如 果 不 是 所 有 w ;者 收敛， 重复 步 (2) 。 


这 一 算法 关键 的 一 步 是 (a)， 即 求解 方程 (6.33) 中 的 6 ;。 如 果 f*(X,Y) 
是 常数 ， 即 对 任何 x,y， 有 f*(X,Y) 二 MM， 那么 6 ; 可 以 显 式 地 表示 成 


Eit 
ô, a 


z (6.34) 
M ETI 


如 果 f*(X,Y) 不 是 常数 ， 那 么 必须 通过 数值 计算 求 8 ;。 简 单 有 效 的 方法 
是 牛顿 法 。 以 g(5 ;)=0 表 示 方 程 (6.33) ， 和 牛顿 法 通过 迭代 求 得 57 ， 
使 得 g(6” )=0。 远 代 公式 是 


SED = 5) _ g(a) 
i i g'(6®) 
只 要 适当 选取 初始 值 8% ， 由 于 6 ;的 方程 (6.33) 有 单 根 ， 因 此 牛顿 
法 恒 收 敛 ， 而 且 收 敛 速度 很 快 。 
6.3.2” 拟 牛顿 法 
最 大 烂 模 型 学 习 还 可 以 应 用 牛顿 法 或 拟 牛 顿 法 。 参 阅 附录 B。 
WP RAR RA TITS , 


(6.35) 


exp S w f(x, »| 
e E em S E 


i=] 


pe exp . w, f(x, ») 
y i=l 
目标 函数 : 
min f(w)= >. P(x) log 3 exp $ w, f(x, ») 一 P(x, D w, f(x,y) 
we 区 y j=l xy i=l 


梯度 : 


eon =( 200, Leo. on} 
i ow, CW, 


++ 


Of (w 2 
e = 9 POP OLSEN- Eph), i=12,-n 
Ow, ar 


相应 的 拟 牛 顿 法 BFGS 算 法 如 下 。 


算法 6.2 (ARS > MBFGSHE) 


输入 : FFER Zf if>, as STE P (X,Y), BERKE), E 
g(w) =V f(w), 精度 eke. 


输出 : 最 优 参数 值 w ;最 优 模型 Pw(YIX)。 
(1) 选 定 初始 点 w" ， 取 B 0 为 正定 对 称 矩 阵 ， 置 k= 二 0 


(2) 计算 gx=g(ww)。 若 lgkll<E ， 则 停止 计算 ， 得 w* =w%， 否则 
转 (3) 


(3) 由 Bkpk 王 -gk 求 出 px 
(4) 一 维 搜索 : KA | HEE 


fiw” + AP) = min Fw +Ap,) 


(5) Bw =w"+A pr 


(6) 计算 gl =8w™), Allgiall<€. WELEHE, fw =w™, 
否则 ， 按 下 式 求 出 B p1: 


= 


1. 逻辑 斯 席 回 归 模 型 是 由 以 下 条 件 概率 分 布 表 示 的 分 类 模型 。 逻 辑 斯 
谤 回归 模型 可 以 用 于 二 类 或 多 类 分 类 。 


exp(w, +X) 
K-| 


1+ > exp(w, +x) 
k=l 


PUY =k x)}= 


P(Y =K|x)= l 


K-l 


1+ 》exp( w, +x) 
k=l 


这 里 ，x 为 输入 特征 ，w 为 特征 的 权 值 。 


逻辑 斯 详 回 归 模型 源 目 远 辑 斯 详 分 布 ， 其 分 布 函 数 F(g 是 S 形 函数 。 远 
辑 斯 诺 回 归 模 型 是 由 输入 的 线性 函数 表示 的 输出 的 对 数 几 率 模 型 。 


2. 最 大 精 模 型 症 由 以 下 条 件 概率 分 布 表 示 的 分 类 模型 。 最 大 箭 模型 也 
可 以 用 于 二 类 或 多 类 分 类 。 


P,Q |x) = FF wp [> w, f(x, ») 


Z,, (x)= > op [> w, f(x, ») 
y f=] 


其 中 ，Z (ENEMAS, § 为 特征 函数 ，wi 为 特征 的 权 值 。 

3. RAMRAO ARARE S o AREE R 
>) ITA — NEEM ° REED A TET P BER RAL (分 
Ai) WREEF, ee AAR ERG ARE o 


Be A hia J BA 2 oP RA, AA PAREA le: 


min —H(P)= > P(x)P(y | x) log P(y | x) 


st. P(f)-P(f)=0, i=1,2,…,n 


> P(y|x)=1 


APRIL BOCA. al SUI SS 
4. Sy ES BR PE EEA 


5. eT vii TE YAY ee RR A =F >] OR RAAT, E 
MU CERAM ea Po 2 BT vit E VR A De ae A a SY DA 
化 为 无 约束 最 优化 问题 。 求 解 该 最 优化 问题 的 算法 有 改进 的 迭代 尺度 
法 、 梯 度 下 降 法 、 拟 牛顿 法 。 


继续 阅读 


逻辑 斯 详 回 归 的 介绍 参见 文献 [和 ]， 最 大 精 模 型 的 介绍 参见 文献 [2,3] 。 
逻辑 斯 详 回 归 模型 与 朴素 贝 叶 斯 模型 的 天 系 参见 文献 [4]， 逻 辑 斯 详 回 
归 模 型 与 AdaBoost 的 关系 参见 文献 [5]， 人 逻辑 斯 详 回 归 模 型 与 核 芳 数 的 
关系 参 见 文献 [6]。 


习题 
6.1 确认 逻辑 斯 详 分 布 属于 指数 分 布 族 。 
6.2 写 出 逻辑 斯 谤 回归 模型 学 习 的 梯度 下 降 算 法 。 
6.3 | 5 tt ee KIER ALA >] DEP RE © (关于 一 般 的 DFP 算 法 参见 附 
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注释 


[1] 此 例 来 自 参考 文献 [1]。 


(2) 单纯 形 是 在 n 维 欧 氏 空间 中 的 n+1 个 仿 射 无 关 的 点 的 集合 的 凸 包 。 


[3]。 一 般 地 ， 特 征 函 数 可 以 是 任意 实 值 画 数 。 


[4]. 参阅 附录 C。 


第 7 章 ”支持 向 量 机 


支持 癌 量 机 (support vector machines, SVM) 是 一 种 二 类 分 类 模型 。 

它 的 基本 模型 是 定义 在 特征 空间 上 的 间隔 最 大 的 线性 分 类 絮 ， 间 隔 最 
大 使 它 有 别 于 感知 机 ， 支 持 问 量 机 还 包括 核 技巧 ， 这 使 它 成 为 实质 上 
的 非 线 性 分 类 器 。 支 持 癌 量 机 的 学 习 案 上 略 惑 是 间隔 最 大 化 ， 可 形式 化 
为 一 个 求解 凸 二 次 规划 (convex quadratic programming) 的 问题 ， 也 

等 价 于 正则 化 的 合 页 损失 函数 的 最 小 化 问题 。 文 持 癌 量 机 的 学 习 算法 
是 求解 凸 二 次 规划 的 最 优化 算法 。 


文 持 癌 量 机 学 习 方 法 包含 构建 由 人 简 至 繁 的 模型 :线性 可 分 支持 癌 量 机 

(linear support vector machine in linearly separable case) 、 线 性 支持 癌 
量 机 (linear support vector machine) 及 非 线 性 支持 向 量 机 (non-linear 
support vector machine) 。 简 单 模型 是 复杂 模型 的 基础 ， 也 是 复杂 模型 
的 特殊 情况 。 当 训练 数据 线性 可 分 时 ， 通 过 硬 间 隔 最 大 化 Chard 
margin maximization) ， 学 习 一 个 线性 的 分 类 器 ， 即 线性 可 分 支持 问 
量 机 ， 又 称 为 硬 间 隅 文 持 向 量 机 ， 当 训练 数据 近似 线性 可 分 时 ， 通 过 
软 间隔 最 大 化 (soft margin maximization) ， 也 学 习 一 个 线性 的 分 类 
器 ， 即 线性 文 持 同 量 机 ， 又 称 为 软 间 隔 文 持 回 量 机 ;， 当 训练 数据 线性 
不 可 分 时 ， 通 过 使 用 核 技 巧 (kernel trick) 及 软 间隔 最 大 化 ， 学 习 非 
线性 支持 癌 量 机 。 


当 输入 空间 为 欧 氏 空间 或 离散 集合 、 特 征 空间 为 希 尔 伯 特 空间 时 ， 核 
画 数 kemel function) 表示 将 输入 从 输入 空间 映射 到 特征 空间 得 到 的 
特征 向 量 之 间 的 内 积 。 通 过 使 用 核 画 数 可 以 学 习 非 线性 支持 向 量 机 ， 
等 价 于 隐 式 地 在 高 维 的 特征 空间 中 学 习 线性 支持 向 量 机 。 这 样 的 方法 
POEA BET = HJIH (kerel method) 是 比 支持 向 量 机 更 为 一 般 的 机 
器 学 习 方法 。 


Cortes 与 Vapnik 提 出 线性 文 持 同 量 机 ，Boser、Guyon 与 Vapnik 又 引入 核 
技巧 ， 提 出 非 线性 支持 癌 量 机 。 


本 章 按 照 上 述 思路 介绍 3 类 支持 疝 量 机 、 核 琅 数 及 一 种 快速 学 习 算 法 
一 一 序列 最 小 最 优化 算法 (SMO) 。 


7.1 线性 可 分 支持 癌 量 机 与 硬 间 隔 最 大 化 


7.1.1 线性 可 分 支持 向 量 机 


考虑 一 个 二 类 分 类 问题 。 假 设 输入 空间 与 特征 空间 为 两 个 不 同 的 空 
间 。 输 入 空间 为 欧 氏 空间 或 离散 集合 ， 特 征 空间 为 欧 氏 空间 或 布尔 伯 
特 空间 。 线 性 可 分 支持 疝 量 机 、 线 性 支持 向 量 机 假设 这 两 个 空间 的 元 
素 一 一 对 应 ， 并 将 输入 空间 中 的 输入 映射 为 特征 空间 中 的 特征 同 量 。 
非 线 性 支持 向 量 机 利用 一 个 从 输入 空间 到 特征 空间 的 非 线 性 映射 将 输 
入 映射 为 特征 回 量 。 所 以 ， 输 入 都 由 输入 空间 转换 到 特征 空间 ， 文 持 
回 量 机 的 学 习 是 在 特征 空间 进行 的 。 


假设 给 定 一 个 特征 空间 上 的 训练 数据 集 


T = { (2 SJ ix , ja se (Xy Vy )} 


fH, x,e€x=R°, yEy ={+1-1}，i=12,...,N，xXi 为 第 i 个 特征 向 
， 也 称 为 实例 ，yi; Ax, 的 类 标记 ， 当 yi =+1 时 ， 称 x ;为 正 例 ; 当 y， 
=-1 时 ， 称 xi; 为 负 例 ，(xi ，yji) 称 为 样本 点 。 再 假设 训练 数据 集 是 线 
性 可 分 的 〈 见 定义 2.2) 。 


学 习 的 目标 是 在 特征 空间 中 找到 一 个 分 离 超 乎 面 ， 能 将 实例 分 到 不 同 
的 类 。 分 离 超 平面 对 应 于 方程 w:-x+b 二 0， 它 由 法 向 量 w 和 截 距 b 决 定 ， 
可 用 (wb) 来 表示 。 分 离 超 平面 将 特征 空间 划分 为 两 部 分 ， 一 部 分 是 正 
类 ， 一 部 分 是 负 类 。 法 向 量 指 疝 的 一 侧 为 正 类 ， 男 一 侧 为 负 类 。 


一 般 地 ， 当 训练 数据 集 线 性 可 分 时 ， 存 在 无 穷 个 分 离 超 平 面 可 将 两 类 
数据 正确 分 开 。 感知 机 利用 误 分 类 最 小 的 策略 ， 求 得 分 离 超 乎 面 ， 不 
过 这 时 的 解 有 无 穷 多 个 。 线 性 可 分 文 持 问 量 机 利用 间 隅 最 大 化 求 最 优 
分 离 超 平面 ， 这 时 ， 解 是 唯一 的 。 


定义 7.1 (线性 可 分 支持 向 量 机 ) ”给 定 线性 可 分 训练 数据 集 ， 通 过 间 
人 


i 


w’ -x+b* =0 (7.1) 
以 及 相应 的 分 类 决策 函数 


f(x) =sign(w’ .x+b") (7.2) 
称 为 线性 可 分 支持 同 量 机 。 


著 虑 如 图 7.1 所 示 的 二 维特 征 空间 中 的 分 类 问题 。 图 中 “o” 表 示 正 

例 ，“x” 表 示人 负 例 。 训 练 数 据 集 线 性 可 分 ， 这 时 有 许多 直线 能 将 两 类 数 
据 正 确 划分 。 线 性 可 分 文 持 回 量 机 对 应 着 将 两 类 数据 正确 划分 并 且 间 
阳 最 大 的 直线 ， 如 图 7.1 所 示 。 


图 7.1 二 类 分 类 问题 


间 隅 最 大 及 相应 的 约束 最 优化 问题 将 在 下 面 艇 述 。 这 里 先 介绍 函数 间 
隔 和 几何 间 隅 的 概念 。 


7.1.2 ”函数 间隔 和 几何 间隔 


在 图 7.1 中 ， 有 A，B，C 三 个 点 ， 表 示 3 个 实例 ， 均 在 分 离 超 平面 的 正 
类 一 侧 ， 预 测 它们 的 类 。 点 A 距 分 离 超 平面 较 远 ， 若 预测 该 点 为 正 
类 ， 就 比较 确信 预测 是 正确 的 ， 点 C 距 分 离 超 平面 较 近 ， 若 预测 该 点 
为 正 类 就 不 那么 确信 ; 点 B 介 于 点 A 与 C 之 间 ， 预 测 其 为 正 类 的 确信 度 
也 在 A 与 C 之 间 。 


一 般 来 说 ， 一 个 点 距离 分 离 超 平 面 的 远近 可 以 表示 分 类 预测 的 确信 程 
度 。 在 超 平面 w:x+b 二 0 确定 的 情况 下 ，|w-x+b| 能 够 相对 地 表示 点 x 距离 
超 平面 的 远近 。 而 wx+b 的 符号 与 类 标记 y 的 符号 是 否 一 致 能 够 表示 分 
类 是 否 正 确 。 所 以 可 用 量 y(w:x+b) 来 表示 分 类 的 正确 性 及 确信 和 度 ， 这 
就 是 函数 间隔 (functional margin) 的 概念 。 


定义 7.2 (KAHR) ”对 于 给 定 的 训练 数据 集 T 和 超 平面 (wb)， 定 义 
超 平面 (wb) 关 于 样本 点 (xi ，yi) 的 函数 间隔 为 


¥, =y,(wex, +b) (7.3) 


EEFE (wb) FIRR SR TAY KA By EF E (wb) FTH AT 
有 样本 点 (Xx; ，y i) 的 函数 间隔 之 最 小 值 ， 即 


dd is) 


函数 间隔 可 以 表示 分 类 预测 的 正确 性 及 确信 和 度 。 但 是 选择 分 离 超 平面 
时 ， 只 有 画 数 间隔 还 不 够 。 因 为 只 要 成 比例 地 改变 w 和 b， 例 如 将 它们 
改 为 2w 和 2b， 超 平面 并 没有 改变 ， 但 画 数 间隔 却 成 为 原来 的 2 倍 。 这 
一 事实 启示 我 们 ， 可 以 对 分 离 超 平面 的 法 向 量 w 加 某 些 约束 ， 如 规范 
E, W= 1， 使 得 间隔 是 确定 的 。 这 时 画 数 间隔 成 为 几何 间隔 


(geometric margin) 。 


图 7.2 给 出 了 超 平面 (w,b) 及 其 法 向 量 w。 点 A 表示 某 一 实例 x;， 其 类 标 
记 为 y; =+1° 点 A 与 超 平面 (w,b) 的 距离 由 线段 AB 给 出 ， 记 作 y ; 。 


w 
y. = eX, + 
Iwl 


| w |) 


其 中 ，||w|| 为 w 的 L 5 范 数 。 这 是 点 A 在 超 平面 正 的 一 侧 的 情形 。 如 果 点 
A 在 超 平面 负 的 一 侧 ， 即 y; =-1， 那 么 点 与 超 平面 的 距离 为 


| w P b | 
y = 一 . X 
lwi diwl] 


一 般 地 ， 当 样本 点 (xi y EF (wb) IEPA RAY, x TEFA 


(wb) 的 距离 是 
n= w a b | 
‘wil oo [pel 


由 这 一 事实 导出 几何 间隔 的 概念 。 


图 7.2 几何 间隔 


定义 7.3 (几何 间隔) 对 于 给 定 的 训练 数据 集 T 和 超 平 面 (w,b)， 定 义 
超 平面 (wb) 关 于 样本 点 (xi ，yi) 的 几何 间隔 为 


ee (alee ee (7.5) 
w| Iwll 


定义 超 平面 (w,b) 关 于 训练 数据 集 T 的 几何 间隔 为 超 平面 (w,b) 关 于 T 中 所 
有 样本 点 (Xx; ，yi) 的 几何 间隔 之 最 小 值 ， 即 


y= min 7 (7.6) 
FE (wyb) ART AF ARAKI LAST IB Be SE a BT 
带 答 号 的 距离 (signed distance) ， 当 样本 点 被 超 乎 面 正确 分 类 时 就 是 
实例 点 到 超 平 面 的 距离 。 


从 函数 间隔 和 几何 间隔 的 定义 ( 式 (7.3) 一 式 (7.6) ) AIAN, KZE] 
隅 和 几何 间隔 有 下 面 的 关系 : 


A 
a 
Vi 


(7.7) 


n= 
| w || 
7 
y=— (7.8) 


| w| 


如 采 ||wll=1， 那 么 画 数 间隔 和 几何 间隔 相等 。 如 采 超 平面 参数 w 和 pb 成 
比例 地 改变 ( 超 平面 没有 改变 ) ， 画 数 间隔 也 按 此 比例 改变 ， 而 几何 


间隔 不 变 。 


7.1.3” 间 阳 最 大 化 


文 持 向 量 机 学 习 的 基本 想法 古 求解 能 够 正确 划分 训练 数据 集 并 且 几 何 
间隔 最 大 的 分 离 超 平面 。 对 线性 可 分 的 训练 数据 集 而 言 ， 线 性 可 分 分 
离 超 平 面 有 无 穷 多 个 (等 价 于 感知 机 ) ， 但 是 几何 间隔 最 大 的 分 离 超 
平面 是 唯一 的 。 这 里 的 间隔 最 大 化 义 称 为 硬 间隔 最 大 化 (与 将 要 讨论 
的 训练 数据 集 近 似 线性 可 分 时 的 软 间隔 最 大 化 相对 应 ) 。 


间隔 最 大 化 的 直观 解释 是 :对 训练 数据 集 找到 几何 间隔 最 大 的 超 平面 
意味 着 以 充分 大 的 确信 和 度 对 训练 数据 进行 分 类 。 也 束 是 说 ， 不 仅 将 正 
负 实 例 点 分 开 ， 而 且 对 最 难 分 的 实例 点 〈( 离 超 平面 最 近 的 点 ) 也 有 足 
够 大 的 确信 度 将 它们 分 开 。 这 样 的 超 乎 面 应 该 对 未 知 的 新 实例 有 很 好 
的 分 类 预测 能 


1. 最 大 间隔 分 离 超 平面 


下 面 考 虑 如 何 求 得 一 个 几何 间 隅 最 大 的 分 离 超 平面 ， 即 最 大 间 隅 分 离 
超 平面 。 具 体 地 ， 这 个 问题 可 以 表示 为 下 面 的 约束 最 优化 问题 : 


max y (7.9) 


l 
s.t. "| ae ler. i=1,2,---,N (7.10) 


. X, 3 
| w || Il w/l 


印 我 们 希望 最 大 化 超 平面 (wb) 天 于 训练 数据 集 的 几何 间隔 :， 约 束 条 件 
表示 的 是 超 平面 (wb) 关 于 每 个 训练 样本 点 的 几何 间隔 至 少 是 y 。 


考虑 几何 间隔 和 画 数 间隔 的 关系 式 〈7.8) ， 可 将 这 个 问题 改写 为 


max i (7.11) 
"+ llw] 


s.t. y(wex,+b)27, i=1,2,,N (7.12) 


函数 间 隅 六 的 取 值 并 不 影响 最 优化 问题 的 解 。 事 实 上 ， 假 设 将 w 和 b 按 
比例 改变 为 4w 和 XA.b， 这 时 函数 间隔 成 为 47。 函 数 间隔 的 这 一 改变 
对 上 面 最 优化 问题 的 不 等 式 约束 没有 影响 ， 对 目标 函数 的 优化 也 没有 
影响， 也 就 是 说 ， 它 产生 一 个 等 价 的 最 优化 问题 。 这 样 ， 束 可 以 取 z 
=1 ° 将 7 =1 代 入 上 面 的 最 优化 问题 ， 注意 到 最 大 化 T 和 最 小 化 = ||wl| 
' 是 等 价 的 ， 于 是 束 得 到 下 面 的 线性 可 分 支持 同 量 机 学 习 的 最 优化 问题 


min Swf (1.13) 
st. y(wex,+b)-120, i=1,2,-,N (7.14) 


这 是 一 个 凸 二 次 规划 (convex quadratic programming) 问题 。 


凸 优化 问题 是 指 约 束 最 优化 问题 


min fw) (7.15) 
s.t. g(w)&0, i=1,2,--,k (7.16) 
h(w)=0, i=1,2,-->,/ (7.17) 


其 中 ， 目 标 画 数 fw) 和 约束 画 数 gi(w) 都 是 R* 上 的 连续 可 微 的 凸 画 数 ， 
约束 丽 数 hi(w) 是 R" 上 的 仿 射 丽 数 下 。 


= A tren iw) KAREN Ng (Ww) TT KAT, alt x 
优化 问题 成 为 上 四 二 次 规划 问题 。 


如 有 果 求 出 了 约束 最 优化 问题 (7.13) ~ (7.14) 的 解 wb， 那么 就 可 
以 得 到 最 大 间隔 分 离 超 平面 wx+b = OR ARR A) = sign(w* 


x+b")， 即 线性 可 分 支持 向 量 机 模型 。 
综 上 所 述 ， 束 有 下 面 的 线性 可 分 文 持 癌 量 机 的 学 习 算法 


法 (maximum margin method) 
算法 7.1 (线性 可 分 支持 向 量 机 学 习 算 法 一 一 最 大 间隔 法 ) 


输入 : 线性 可 分 训练 数据 集 T={(x1,，y1),(X2， 72),…,(XN;yN)}， 其 
F, x; EXSR?”, y; EY = {-1,+1}, LZ cya; 


输出 ， 最 大 间隔 分 离 超 平面 和 分 类 决策 范 数 。 
(1) 构造 并 求解 约束 最 优化 问题 : 


最 大 间隔 


] 
min —|| | 
wb 2 
s.t. y(wex,+b)-120, i=1,2,,N 
求 得 最 优 解 ,wb ° 
(2) 由 此 得 到 分 离 超 平面 : 


w ex+b =0 


分 类 决策 函数 

f(x) =sign(w' -x+b’) a 
2. 最 大 间隔 分 离 超 平 面 的 存在 唯一 性 
线性 可 分 训练 数据 集 的 最 大 间隔 分 离 超 平面 是 存在 且 唯 一 的 。 
定理 7.1 (最 大 间隔 分 离 超 平面 的 存在 唯一 性 ) ” 若 训 练 数 据 集 T 线 性 
可 分 ， 则 可 将 训练 数据 集中 的 样本 点 完全 正确 分 开 的 最 大 间隔 分 离 超 
平面 存在 且 唯 一 。 
证 明 (1) 存在 性 


由 于 训练 数据 集 线 性 可 分 ， 所 以 算法 7.1 中 的 最 优化 问题 (7.13) ~ 
(7.14) 一 定 存在 可 行 解 。 又 由 于 目标 函数 有 下 界 ， 所 以 最 优化 问题 
(7.13) ~ (7.14) 必 有 解 ， 记 作 (w',b*)。 由 于 训练 数据 集中 既 有 正 
类 点 又 有 仙 类 点 ， 所 以 (w,b)==(0,b) 不 是 最 优化 的 可 行 解 ， 因 而 最 优 解 
(w*,b”) 必 满足 wz0。 由 此 得 知 分 离 超 平面 的 存在 性 。 


(2) 唯一 性 


首先 证 明 最 优化 问题 (7.13) ~ (7.14) 解 中 w 的 唯一 性 。 假 设 问 题 
(7.13) ~ (7.14) 存在 两 个 最 优 解 (wi by ) 和 (w b). SLPS [wy || = lw 
=c, HCE MER O Swe, phth ， 易 知 (w,b) 是 问题 


(7.13) ~ (7.14) 的 可 行 解 ， 从 而 有 


| 1] ó l ‘ 
eS] wil <li I+ Zl lee 


上 式 表 明 ， 式 中 的 不 等 号 可 变 为 等 号 ， 即 llwll=> lw + les ||. AmA 
we=Aws. |A|= 1° 44 =-1, ， 则 w=0，(wb) 不 是 问题 (7.13) ~ 
(7.14) 的 可 行 解 ， 矛 盾 。 因 此 必 有 4 =1， 即 


w =w; 
由 此 可 以 把 两 个 最 优 解 Gwi ,Br FW B AE Rw b Awb) 。 
FRIES = by o Vex 和 x; 是 集合 {x ly, =+1} 中 分 别 对 应 于 (wb ACW’, 
已 ) 使 得 问题 的 不 等 式 等 号 成 立 的 点 ， 立 和 芯 是 集合 {xilyi=-1} 中 分 别 
对 应 于 (w By FM (wb; ) 使 得 问题 的 不 等 式 等 号 成 立 的 点 ， 则 由 bY = 


(Ww) bj SE w aw 
+ ] * 
b' —b; = gra (x-xi) + Ww’ (x x) 


MAA 
Wx, +b 2l=w ex +h 


w . x + b} = ] 一 Ww . X + b} 


EDA, wo) e AEA w at)=0 > Butt, 
a= b, 一 人 


Hw =w Mh =b 可 知 ， 两 个 最 优 解 (wi ,Br ) 和 (w; ,b; ) 是 相同 的 ， 解 
的 唯一 性 得 证 。 


由 问题 (7.13) ~ (7.14) 解 的 唯一 性 即 得 分 离 超 平面 是 唯一 的 。 
(3) 分 离 超 平面 能 将 训练 数据 集中 的 两 类 点 完全 正确 地 分 开 。 
由 解 满足 问题 的 约束 条 件 即 可 得 知 。 
3. 支持 向 量 和 间隔 边界 
在 线性 可 分 情况 下 ， 训 练 数据 集 的 样本 点 中 与 分 离 超 平面 距离 最 近 的 
样本 点 的 实例 称 为 支持 向 量 (support vector) 。 文 持 向 量 是 使 约束 条 
件 式 (7.14) 等 号 成 立 的 点 ， 即 

y,(w-x, +b)—-1=0 
对 yi SHEFA, SIF H EEEF 

H,:wex+b=1 

上 ， 对 yi =-1 的 负 例 点 ， 文 返回 量 在 超 平面 


H,:wex+b=-] 


上 。 如 图 7.3 所 示 ， 在 H1; AH, 上 的 点 就 是 支持 向 量 。 


图 7.3” 文 持 向 量 


注意 到 Hi 和 H: 平 行 ， 并 且 没 有 实例 点 落 在 它们 中 间 。 在 Hi 与 了 > 之 
间 形 成 一 条 长 市 ， 分 离 超 平 面 与 它们 平行 且 位 于 它们 中 央 。 长 市 的 宽 
度 ， 即 Hi 与 H> 之 间 的 距离 称 为 间隔 (margin) 。 间 隅 依赖 于 分 离 超 
FNS IA Btw, SP 2-H, 和 H > 称 为 间隔 边界 。 


在 决定 分 离 超 平面 时 只 有 文 持 向 量 起 作用 ， 而 其 他 实例 点 并 不 起 作 

用 。 如 果 移 动 文 持 向 量 将 改变 所 求 的 解 ; 但 是 如 果 在 间隔 边界 以 外 移 
动 其 他 实例 点 ， 甚 至 去 掉 这 些 点 ， 则 解 是 不 会 改变 的 。 由 于 文 持 向 量 
在 确定 分 离 超 平面 中 起 着 决定 性 作用 ， 所 以 将 这 种 分 类 模型 称 为 支持 
癌 量 机 。 支 持 向 量 的 个 数 一 般 很 少 ， 所 以 支持 向 量 机 由 很 少 的 “重要 
的 ?训练 样本 确定 。 

例 7.1 ”数据 与 例 2.1 相 同 。 已 知 一 个 如 图 7.4 所 示 的 训练 数据 集 ， 其 正 
例 点 是 x] =(3,3)", x 二 (4,3)"， 负 例 点 是 xs =(11)7， 试 求 最 大 间隔 
分 离 超 平面 。 


1 ce Se ms & G x) 


图 7.4 间隔 最 大 分 离 超 平面 示例 


解 ” 按照 算法 7.1， 根 据 训 练 数据 集 构造 约束 最 优化 问题 : 


] 了 了 
min —(w, +w) 
wb 2 5 


s.t. 3w,+3w, +521 
4w,+3w,+b2] 


—w,-w,-b21 


求 得 此 最 优化 问题 的 解 w; =w，=- ，b=-2。 于 是 最 大 间隔 分 离 超 平 
面 为 


— x) 1,0 -2 = 0 
2 2 


HH, x, =(3,3)7 与 x3 =(11) "为 支持 向 量 。 


7.1.4 学习 的 对 偶 算 法 


为 了 求解 线性 可 分 支持 向 量 机 的 最 优化 问题 (7.13) ~ (7.14) ， 将 它 
作为 原始 最 优化 问题 ， 应 用 拉 格 朗 日 对 偶 性 (参阅 附录 C) ， 通 过 求 
解 对 偶 问 题 (dual problem) 得 到 原始 问题 (primal problem) 的 最 优 
解 ， 这 就 是 线性 可 分 支持 向 量 机 的 对 偶 算 法 (dual algorithm) 。 这 样 


AIL, ze EE RA DORA, re BPRS ATK, at 
而 推广 到 非 线性 分 类 问题 。 


CRA ETS BA H EBX (Lagrange function) 。 为 此 ， 对 每 一 个 不 等 式 


约束 (7.14) 引进 拉 格 朗 日 乘 子 (Lagrange multiplier) ai>0，i= 
1,2,.. N, JESHI BHA EAS: 


Desa Ae i 
L(w,b, a) = —|| wf -9 a, y;(w- x, +b) + Da, (7.18) 
æ i=l i=] 


EH, a=(a1,89,...ay) SHLAA RTS © 
根据 拉 格 明日 对 偶 性 ， 原 始 问题 的 对 倘 问 题 是 极 大 极 小 问题 : 


max min L(w,b,@) 
a wh 


所 以 ， 为 了 得 到 对 偶 问 题 的 解 ， 需 要 移 求 LI(wb,a 对 wb 的 极 小 ， 再 求 
对 a 的 极 大 。 


(1) 求 min L(w,b,a) 


将 拉 格 并 日 函数 L(w，b,a) 分 别 对 w,b 求 偏 导 数 并 令 其 等 于 0 。 


N 
V _,L(w,b,a) =w- > a,y;x, =0 


j=] 


N 
V ,L(w,b,a) = > a,y, =0 
i=l 


N 
w= > QO, YX, (7.19) 
i=l 


N 


a,y, =0 (7.20) 


将 式 (7.19) 代入 拉 格 朗 日 函数 (7.18) ， 并 利用 式 (7.20) ， 即 得 


=| j=l 


=-1) Yaa, yy (Xex )+ a 


= iml j=l 


L(w. ba) =— D> a0 yy (NN) = Yay (Zerex re] Èa 
j=l i=l 


N 
min L(w,b,a) = -1$ Yaa MARERE PG: >a 
i=l 


a 


(2) 求 minL(w,b,&) 对 a 的 极 大 ， 即 是 对 偶 问 题 


max > Yaa, VY (% ox )+> (7.21) 


2 tol fol 


a,20, i=1,2,---,N 


将 式 (7.21) 的 目标 函数 由 求 极 大 转换 成 求 极 小 ， 就 得 到 下 面 与 之 等 
价 的 对 偶 最 优化 问题 : 


min Ly yaa, Vi X; aSa (7.22) 
z i=l 


i=l j=l 
s.t. yxy, = () (7.23) 
aot, dy (7.24) 


考虑 原始 最 优化 问题 (7.13) ~ (7.14) 和 对 偶 最 优化 问题 (7.22) ~ 
(7.24) ， 原 始 问题 满足 定理 C.2 的 条 件 ， 所 以 存在 w*,a*,B"， 使 w "是 


原始 问题 的 解 ，a*,B' 是 对 偶 问 题 的 解 。 这 意味 着 求解 原始 问题 
(7.13) ~ (7.14) 可 以 转换 为 求解 对 偶 问 题 (7.22) ~ (7.24) 


对 线性 可 分 o 假设 对 偶 最 优化 问题 (7.22) ~ (7.24) 对 a 
的 解 为 a 和 = (at ,oa .acw" )"， 可 以 由 a* 求 得 原始 最 优化 问题 (7.13) 
~ (7.14) 对 (wb 的 解 w ,b*。 有 下 面 的 定理 。 


定理 7.2 ia" = (a ,a ,.…0" ) 是 对 个 最 优化 问题 (7.22) 2 
(7.24) 的 解 ， 则 存在 下 标 j， 使 得 w; >0， 并 可 按 下 式 求 得 原始 最 优化 
问题 (7.13) ~ (7.14) 的 解 w*,b:: 


w = DAJA (7.25) 
p =y,- Vary, (x “xX,) (7.26) 
证 明 ”根据 定理 C.3，KKT 条 件 成 立 ， 即 得 


V,L(w ,b a )=w -ay,x =0 (7.27) 


i=l 
N 
V,L(w’,b',a@°)=-) ay, =0 
i=l 
a; (y (w -x,+b°)-l)=0, i=1,2,--,N 
yw -x,+b°)-120, i=1,2,.…,N 
aS i=1,2,+,N 


由 此 得 


其 中 至 少 有 一 个 or >0 (用 反 证 法 ， 假 设 a* =0， 由 式 (7.27) 可 知 w- 
=0， 而 w* =0 不 是 原始 最 优化 问题 (7.13) ~ (7.14) WR, FEF 


盾 ) ， 对 此 j 有 
y,(w +x, +b°)-1=0 (7.28) 


将 式 (7.25) 代入 式 (7.28) 并 注意 到 y* =1, BIG 
b =y, -9 a; y (x.x) z 
由 此 定理 可 知 ， 分 离 超 平面 可 以 写成 
Yay (rox)+b’ =0 (7.29) 
Sy FRR EH ELA AE BG 
f(x) =sign Saty (x-x,) +b" | (7.30) 
这 束 是 说 ， 分 类 决策 函数 只 依赖 于 输入 x 和 训练 样本 输入 的 内 积 。 式 
(7.30) 称 为 线性 可 分 支持 向 量 机 的 对 偶 形 式 。 
综 上 所 述 ， 对 于 给 定 的 线性 可 分 训练 数据 集 ， 可 以 首先 求 对 侦 问 题 
(7.22) ~ (7.24) 的 解 a"; 再 利用 式 (7.25) 和 式 (7.26) 求 得 原始 
问题 的 解 w*,b"; 从 而 得 到 分 离 超 平面 及 分 类 决策 芳 数 。 这 种 算法 称 
为 线性 可 分 支持 同 量 机 的 对 俩 学 习 算 法 ， 是 线性 可 分 支持 癌 量 机 学 习 
的 基本 算法 。 
算法 7.2 (线性 可 分 支持 向 量 机 学 习 算 法 ) 


Ex=R", yiEY ={-1,+1}, i=1,2,...,N; 


输出 : DARF EMIRRAREN o 
(1) 构造 并 求解 约束 最 优化 问题 


.Tw 
min 7 5 > a,a,y,y, (x, . x, ) 一 >a, 
i=l 


i=l j=l 


s.t. > ay, =) 


求 得 最 优 解 a = (@ ,ay ,...,@y")? ° 


(2) 计算 
N 
w= Ya, yx, 
i=l 
并 选择 a* 的 一 个 正 分 量 @a; >0， 计 算 
N 
b = i >. y(x, X; ) 
i=l 


(3) 求 得 分 离 超 平面 
W ex+b =0 
分 类 决策 函数 : 
f(x) =sign(w’ «x +b") a 


在 线性 可 分 支持 向 量 机 中 ， 由 式 (7.25) 、 式 (7.26) 可 知 ，w “和 b 
只 依赖 于 训练 数据 中 对 应 于 @* >0 的 样本 点 (Xx; ，yi)， 而 其 他 样本 点 对 
w iib “没有 影响 。 我 们 将 训练 数据 中 对 应 于 Qa* >0 的 实例 点 x; ER PK 
为 支持 问 量 。 

定义 7.4 (支持 向 量 ) ”考虑 原始 最 优化 问题 (7.13) ~ (7.14) 及 对 
偶 最 优化 问题 (7.22) ~ (7.24) ， 将 训练 数据 集中 对 应 于 a,* >0 的 样 


本 点 (xi，yi) 的 实例 xi ER " 称 为 文 持 同 量 。 


根据 这 一 定义 ， 文 持 问 量 一定 在 间隔 边界 上 。 由 KKT 互 补 条 件 可 知 ， 
2 (y (w +D)-D=0，1=12…,N 
对 应 于 w”>0 的 实例 xi ， 有 
y,(w «x, +b°)-1=0 
或 
w .Xi +b = 土 ] 


Bx 一定 在 间 阳 边界 上 。 这 里 的 支持 问 量 的 定义 与 前 面 给 出 的 支持 问 
量 的 定义 是 一 致 的 。 


例 7.2 ”训练 数据 与 例 7.1 相 同 。 如 图 7.4 所 示 ， 正 例 点 是 x =(3,3)", x 
5 =(4,3)', APR ex, =(110)7， 试 用 算法 7.2 求 线性 可 分 文 持 问 量 
机 ° 


解 ” 根 据 所 给 数据 ， 对 偶 问 题 是 
YY aa yy = yw 


] 了 了 了 
= 5 (18a, + 25a, + 2a; + 42a,a, —12a,a, —14a,a,)—a, 一 Co 一 Ci 


iD | 一 


min 


st. @,+a@,-—a,=0 


a,20, i=1,2,3 


解 这 一 最 优化 问题 。 将 a 3 =al+ay 代 入 目标 函数 并 记 为 


了 13 ? 
s(a a, ) = 4a; ara FIOS = 2m2 


对 a az 求 偏 导数 并 令 其 为 0， 易 知 sa a EA] 取 极 值 ， 但 该 点 
不 满足 约束 条 件 az>0， 所 以 最 小 值 应 在 边界 上 达到 。 


当 a1 =0 时 ， 最 小 值 ,0 志 ]=- 寺 ; Ha, =0 时 ， 最 小 值 ;了 .0]=- "于 是 s(a 


1a2) 在 al =. a, =0 达 到 最 小 ， 此 时 as =a; ta, = 


I, 
4 4 


这 样 ，ar = aS = MAX 1,x 3 是 支持 向 量 。 根 据 式 (7.25) 
和 式 (7.26) 计算 得 


i 2 
b = 一 2 
分 离 超 平面 为 
te { '—2=0 
分 类 决策 函数 为 
f(x) = sign 上 FO E, a 
i 


对 于 线性 可 分 问题 ， 上 述 线 性 可 分 支持 向 量 机 的 学 习 〈 硬 间隔 最 大 
化 ) 算法 是 完美 的 。 但 是 ， 训 练 数 据 集 线 性 可 分 是 理想 的 情形 。 在 现 
实 问题 中 ， 训 练 数 据 集 往往 征 线性 不 可 分 的 ， 即 在 样本 中 出 现 噪声 或 
特异 点 。 此 时 ， 有 更 一 般 的 学 习 算法 。 


7.2 ”线性 支持 向 量 机 与 软 间 隔 最 大 化 
7.2.1 ”线性 支持 向 量 机 


线性 可 分 问题 的 支持 向 量 机 学 习 方 法 ， 对 线性 不 可 分 训练 数据 是 不 适 
用 的 ， 因 为 这 时 上 述 方 法 中 的 不 等 式 约束 并 不 能 都 成 立 。 怎 么 才能 将 
它 扩展 到 线性 不 可 分 问题 呢 ? 这 束 需 要 修改 人 硬 间 隔 最 大 化 ， 使 其 成 为 
软 间隔 最 大 化 。 


假设 给 定 一 个 特征 空间 上 的 训练 数据 集 


T = {(x, sV] ), (x, s V2 j ‘at (Xy s YN ) } 


其 中 ，xisx=R"，yiey ={4+1-1}, i=1,2,..,N, XxX; 为 第 个 特征 癌 
E, y Ax ;的 类 标记 。 再 假设 训练 数据 集 不 是 线性 可 分 的 。 通 常情 况 
是 ， 训 | 练 数 据 中 有 一 些 特异 点 (outlier) ， 将 这 些 特异 点 除去 后 ， 和 猎 


下 大 部 分 的 样本 点 组 成 的 集合 是 线性 可 分 的 。 


线性 不 可 分 意味 着 某 些 样本 点 (x; ，yi) 不 能 满足 函数 间隔 大 于 等 于 1 的 
约束 条 件 (7.14) 。 为 了 解决 这 个 问题 ， 可 以 对 每 个 样本 点 (xi ，yi) 引 
进 一 个 松弛 变量 E ;>0， 使 钞 数 间 阳 加 上 松弛 变量 大 于 等 于 1。 这样 ， 
约束 条 件 变 为 


y(wex, +b) 21-6, 
同时 ， 对 每 个 松弛 变量 5 AMEME, o BIRRERIA l 


: 变 成 


= wll +C》 上 (7.31) 
j=] 


这 里 ，C>0 称 为 惩罚 参数 ， 一 般 由 应 用 问题 决定 ，C 值 大 时 对 误 分 类 的 
怎 避 增 大 ，C 值 小 时 对 误 分 类 的 惩 架 减 小 。 最 小 化 目标 函数 (7.31) 包 
BRAS ML: 使 ;||wl|* 尽 量 小 即 间隔 尽量 大 ， 同 时 使 误 分 类 点 的 个 数 
尽量 小 ，C 是 调和 二 者 的 系数 。 

有 了 上 面 的 思路 ， 可 以 和 训练 数据 集 线 性 可 分 时 一 样 来 考虑 训练 数据 


集 线 性 不 可 分 时 的 线性 文 持 癌 量 机 学 习 问 题 。 相 应 于 便 间 隔 最 大 化 ， 
它 称 为 软 间 隅 最 大 化 。 


线性 不 可 分 的 线性 文 持 回 量 机 的 学 习 问 题 变 成 如 下 凸 二 次 规划 


(convex quadratic programming) 问题 (原始 问题 : 


N 
min | wI? +c < (7.32) 
wyb,é i=l 
St. 0 oy (wex, +b) 21-6, i=1,2,-°,N (7.33) 
ES0; i=1,2)+,N (7.34) 


原始 问题 (7.32) ~ (7.34) 是 一 个 凸 二 次 规划 问题 ， 因 而 关于 (w，b， 
 ) 的 解 是 存在 的 。 可 以 证 明 w 的 解 是 唯一 的 ， 但 b 的 解 不 唯一 ，b 的 解 
存在 于 一 个 区 间 m 。 


设 问 题 (7.32) ~ (7.34) 的 解 是 w" ，b - ， 于 是 可 以 得 到 分 离 超 平面 w 
“x+b =O RRR HA (x) = sign(w -x+b*)。 称 这 样 的 模型 为 训练 
样本 线性 不 可 分 时 的 线性 支持 向 量 机 ， 简 称 为 线性 支持 癌 量 机 。 显 
然 ， 线 性 支持 向 量 机 包含 线性 可 分 支持 向 量 机 。 由 于 现实 中 训练 数据 
集 往往 是 线性 不 可 分 的 ， 线 性 支持 疝 量 机 具有 更 广 的 适用 性 。 


下 面 给 出 线性 支持 同 量 机 的 定义 。 
定义 7.5 (线性 支持 向 量 机 ) 对 于 给 定 的 线性 不 可 分 的 训练 数据 集 ， 


通过 求解 凸 二 次 规划 问题 ， 即 软 间 隔 最 大 化 问题 (7.32) ~ (7.34) ， 
得 到 的 分 离 超 平 面 为 


w -x+bh =0 (7.35) 
以 及 相应 的 分 类 决策 函数 
f(x) =sign(w’ .x+p ) (7.36) 


称 为 线性 支持 向 量 机 。 
7.2.2 ”学 习 的 对 偶 算 法 


原始 问题 (7.32) ~ (7.34) 的 对 偶 问 题 是 


WiN N 
min sade aayy (x,+x,)- a, (7.37) 
fi i=l j=l i=l 
N 
st. Day, =0 (7.38) 
i=] 
O0<a,<C, i=1,2,---,N (7.39) 


原始 最 优化 问题 (7.32) ~ (7.34) 的 拉 格 朗 日 函数 是 
N N N 

Lowbéa u) =| wi +C é -9 a (y (wex, +b)-14+E)-) uë (140) 
i=l i=l i=! 


Et, aj20,4;20 ° 


Xf SLR A ABN o HERL, bE ape ) 对 
wb 的 极 小 ， 由 


V,L(w,b,6,0, pT x, =0 


it ii 
i=! 


N 
V,L(w,b,€,a, 4) =-) ay, =0 
i=] 


V.L(w,6,¢,a, 4) =C-a@, -u =0 


w = awn Ñi (7.41) 
Q,y,=0 (7.42) 


C-—a,—yw,=9 (7.43) 


将 式 (7.41) ~ (7.43) 代入 式 (7.40) ， 得 


l N N 
min n L(w, b,¢,@, u) = -52 aayy “x )+>a 
i=] j=l 


再 对 mm L(w，b,é ,aA) 求 a 的 极 大 ， 即 得 对 偶 问 题 : 


N 
max -1$ $ aayy, x,)+ >a, (7.44) 
a i=} j=l i=] 
N 
st. > ay, =0 (7.45) 
i=l 
C-a@, =- =0 (7.46) 
a, =0 (7.47) 
M,20, i=1,2,-:-,N (7.48) 


将 对 偶 最 优化 问题 (7. day (7.48) 进行 变换 : 利用 等 式 约束 
(7.46) 消去 上 由; ， 从 而 只 留 下 变量 ai ， 并 将 约束 (7.46) ~ (7.48) 
写成 


ise <¢ (7.49) 


a a 函数 求 极 大 转换 为 求 极 小 ， 于 是 得 到 对 偶 问 题 (7.37) ~ 
7.39) ° 


可 以 通过 求解 对 偶 问 题 而 得 到 原始 问题 的 解 ， 进 而 确定 分 离 超 平面 和 
决策 函数 。 为 此 ， 就 可 以 定理 的 形式 禾 述 原始 问题 的 最 优 解 和 对 偶 问 
题 的 最 优 解 的 关系 。 


定理 7.3 ia" =(a,",a,",...,@,") TI (7.37) ~ (7.39) 的 一 
WR, ETa k 一 个 分 量 @ ， 0<w; <C， 则 原始 问题 (7.32) ~ 
(7.34) fw b’ 可 按 下 式 求 得 : 


N 


w = EEN (7.50) 
i=] 
N 
b =y,-)y,0,; (x, +x,) (7.51) 
i=l 


证 明 ”原始 问题 是 串 二 次 规划 问题 ， 解 满足 KKT 条 件 。 即 得 
+ * N 
VL(w,b ,EE ,a u )=w — =0 (7.52) 
i=l 


N 
V Jw dé .@ ,p )= -9 a; y, =0 
i=l 


V.L(w ,b ,Et ,a@,u)=C-a -u =0 


a," (y (w «x, +b°)-14+€")=0 (7.53) 


H E =0 (7.54) 
y(w -x, +b)-1+6' 20 


>0 


“M20, i=1,2,°%,N 


由 式 (7.52) 易 知 式 (7.50) 成 立 。 再 由 式 (7.53) ~ (7.54) 可 知 ， 
若 存在 w; ，0<w'; <C， 则 y;(w*-x;+b')-1=0。 由 此 即 得 式 (7.51) ° 


由 此 定理 可 知 ， 分 离 超 平面 可 以 写成 
Yay (xx) +" =0 (7.55) 
i=l 


ZA 


TIRE BAY DAE BY 


N 
f(x) =sign 2 a; y (x.x) +b | (7.56) 


式 (7.56) 为 线性 支持 向 量 机 的 对 偶 形 式 。 
综合 前 面 的 结 末 ， 有 下 面 的 算法 。 
算法 7.3 (线性 支持 向 量 机 学 习 算 法 ) 


输入 : 训练 数据 集 T= {(x 1 ， y1),(X，， y 2),...,(X N,Y N)}, 其 中 ， X;EX 
=R", yey ={-1,+1}, i=1,2,...,N; 


输出 : 分离 超 平面 和 分 类 决策 函数 。 
(1) 选择 惩 避 参数 C>0， 构 造 并 求解 吓 二 次 规划 问题 


N 


N N 
min she AA VV (X;° x )- Va, 
j=l i=l 


s.t. day, = (0) 


RERA =a a paty) 
(2) 计算 w = Vay 


选择 a 的 一 个 分 量 @; 适合 条 件 0<w; <C， 计 算 


N 


p = j= VA (x, + 


分 类 决策 函数 : 
f(x) = sign(w ox+ b`) 。 


步骤 (2) 中 ， 对 任 一 适合 条 件 0<w; <C 的 w; ， 按 式 (7.51) 都 可 求 出 b 
“， 但 是 由 于 原始 问题 (7.32) ~ (7.34) 对 b 的 解 并 不 唯一 [11]， 所 以 
实际 计算 时 可 以 取 在 所 有 符合 条 件 的 样本 点 上 的 平均 值 。 


7.2.3 ”支持 向 量 


在 线性 不 可 分 的 情况 下 ， 将 对 偶 问 题 (7.37) ~ (7.39) 的 解 a =(@,", 
a; s. ay ) "中 对 应 于 @* >0 的 样本 点 (Xx; ，y;) 的 实例 x ; 称 为 支持 向 量 
( 软 间 隔 的 支持 向 量 ) 。 如 图 7.5 所 示 ， 这 时 的 支持 向 量 要 比 线性 可 分 
时 的 情况 复杂 一 些 。 图 中 ， 分 离 超 平面 由 实 线 表 示 ， 间 隔 边界 由 虚线 
表示 ， 正 例 点 由 “o” 表 示 ， 负 例 点 由 “x” 表 示 。 图 中 还 标 出 了 实例 x; 到 


间隔 边界 的 距离 。 


17.5 ” 软 间隔 的 支持 向 量 


软 间隔 的 文 持 癌 量 xi 或 者 在 间隔 边界 上 ， 或 者 在 间隔 边界 与 分 离 超 平 
面 之 间 ， 或 者 在 分 离 超 平面 误 分 一 侧 。 看 w <C， 则 E ; 50, LENE 
xi 恰好 落 在 间隔 边界 上 ; Fa "=C，0<Ei<1， 则 分 类 正确 ，xi 在 间隔 


界 与 分 离 超 平面 之 间 ; Ga, =C，&Ei=1， 则 xi 在 分 离 超 平面 上 
a =C, 上 ii>1， 则 xi 位 于 分 离 超 乎 面 误 分 一 侧 。 


7.2.4” 合 页 损失 函数 


对 于 线性 文 持 癌 量 机 学 习 来 说 ， 其 模型 为 分 离 超 平面 wx+b' = 二 0 及 决 
REZE) = sign(w"-xtb*), FLA >) SRE AERA PA, AOE 
IRL o 

AES HA VLSI Ah PRE, Wie MLL T HERZ: 


> [1-y, Ovex, +b)], +4 |] wf? (7.57) 


i=] 


边 
i 


H ERK AA 8 1 ee Za i KB Zr ar, EWR 
L(y(w- x +b)) =[1— v(we x + 5)], (7.58) 


称 为 合 页 损失 函数 (hinge loss function) 。 下 标 * 十 ”表示 以 下 取 正 值 的 
函数 。 


ice (7.59) 

“= [0 z<0 
这 就 是 说 ， 当 样本 点 (x; ，yi) 被 正确 分 类 且 函 数 间隔 〈 确 信 度 ) yi 
(wxi+b) 大 于 1 时 ， 损 失 是 0， 否 则 损失 是 1-yi(w'xi+b)， 注 意 到 在 图 
7.5 中 的 实例 点 x 4 被 正确 分 类 ， 但 损失 不 是 0。 目标 函数 的 第 2 项 是 系数 
为 4 的 w 的 L , 范 数 ， 是 正则 化 项 。 


定理 7.4 ”线性 文 持 向 量 机 原始 最 优化 问题 : 


N 
min | w|? +O é (7.60) 
i=l 


whe 


st. y(wex,+b)21-€, i=1,2,---,N (7.61) 
€& 20, i=1,2,-,N (7.62) 


等 价 于 最 优化 问题 
min > [l—y,(wex, +)]. +All wif (7.63) 
wb per + 


证 明 ”可 将 最 优化 问题 (7.63) 写成 问题 (7.60) ~ (7.62) -$ 
l—y(wex,+b)=€, €20 (7.64) 


则 yi(wxi+b)>1。 于 是 wb,e ;满足 约束 条 件 (7.61) ~ (7.62) 。 由 式 
=[ğ;] 


(7.64) E., [l-y;(wx;i+b)]; =[€ |], 5# MAR (7.63) 
可 写成 


N 
min > & +A || wIP 
wD i=l 


min E Iwi sca | 
与 式 (7.60) 等 价 。 
反之 ， 也 可 将 最 优化 问题 (7.60) ~ (7.62) 表示 成 问题 (7.63) 。 


合 页 损失 函数 的 图 形 如 图 7.6 所 示 ， 横 轴 是 函数 间隔 y(w:x+b)， 纵 轴 是 
损失 。 由 于 函数 形状 像 一 个 合 页 ， 故 名 合 页 损失 画 数 。 


损失 


(0,1) 
0-1 损失 


(0.0) (1.0) ”函数 间隔 y(wx+b) 
图 7.6 合 页 损失 函数 


图 中 还 画 出 0-1 损 失 函 数 ， 可 以 认为 它 是 二 类 分 类 问题 的 真正 的 损失 配 
B MARMA KETE- RKA EA o ATO- RAAE 

续 可 导 的 ， 直 接 优化 由 其 构成 的 目标 函数 比较 困难 ， 可 以 认为 线性 文 
持 向 量 机 是 优化 由 0-1 损 失 画 数 的 上 界 ( 合 页 损失 函数 ) 构成 的 目标 函 
数 。 这 时 的 上 界 损失 函数 又 称 为 代理 损失 函数 (surrogate loss 


function) 。 


图 7.6 中 虚线 显示 的 是 感知 机 的 损失 函数 [yi(wxi+b)]+。 这 时 ， 当 样本 
点 (Xi，yi) 被 正确 分 类 时 ， 损 失 是 0， 否 则 损失 是 -yi(wXxi+b)。 相 比 之 

， 合 页 损失 函数 不 仅 要 分 类 正确 ， 而 且 确 信 度 足够 高 时 损失 才 是 0。 
也 束 是 说 ， 合 页 损失 函数 对 学 习 有 更 高 的 要 求 。 


7.3 ” 非 线性 支持 向 量 机 与 核 事 数 


对 解 线性 分 类 问题 ， 线 性 分 类 文 持 回 量 机 十 一 种 非常 有 效 的 方法 。 但 
是 ， 有 时 分 类 问题 是 非 线性 的 ， 这 时 可 以 使 用 非 线性 支持 向 量 机 。 本 
世 叙 述 非 线性 文 持 向 量 机 ， 其 主要 特点 是 利用 核 技巧 (kernel 

trick) 。 为 此 ， 先 要 介绍 核 技巧 。 核 技巧 不 仅 应 用 于 支持 向 量 机 ， 而 
且 应 用 于 其 他 统计 学 习 问 题 。 


7.3.1 PRG 


1. 非 线性 分 类 问题 


非 线 性 分 类 问题 是 指 通过 利用 非 线性 模型 才能 很 好 地 进行 分 类 的 问 
题 。 移 看 一 个 例子 : 如 7.7 左 图 ， 是 一 个 分 类 问题 ， 图 中 “” 表 示 正 实例 
上 态 ，“x” 表 示人 负 实例 点 。 由 图 可 见 ， 无 法 用 直线 〈 线 性 模型 ) 将 正 负 实 
Oe 


图 7.7 ” 非 线 性 分 类 问题 与 核 技 巧 示例 


一 般 来 说 ， 对 给 定 的 一 个 训练 数据 集 T={(x1,， ¥1),(K2.Y 2) XN YN 
)}， 其 中 ， 实 例 xi 属于 输入 空间 ，xisx=R"， 对 应 的 标记 有 两 类 yi E 
V ={-L+1}，i=12...N。 如 采 能 用 R" 中 的 一 个 超 曲面 将 正 负 例 正确 
分 开 ， 则 称 这 个 问题 为 非 线性 可 分 问题 。 


非 线 性 问题 往往 不 好 求解 ， 所 以 和 希望 能 用 解 线性 分 类 问题 的 方法 解决 
这 个 问题 。 所 采取 的 方法 是 进行 一 个 非 线性 变换 ， 将 非 线性 问题 变换 
为 线性 问题 ， 通 过 解 变换 后 的 线性 问题 的 方法 求解 原来 的 非 线性 问 
题 。 对 图 7.7 所 示 的 例子 ， 通 过 变换 ， 将 左 多 中 椭圆 变换 成 右 独 中 的 直 
线 ， 将 非 线性 分 类 问题 变换 为 线性 分 类 问题 。 


设 原 空间 为 XCR :，X= (xxXo)r7rex， 新 空间 为 Z CR:，z=(Zo,zo)7 
eZ ， 定 义 从 原 空 间 到 新 空间 的 变换 (映射 ) : 


z= fx) = (x)? (x F y 


经 过 变换 z= O(n), RAR SN BAZ cR*， 原 空间 中 的 点 
相应 地 变换 为 新 空间 中 的 点 ， 原 空间 中 的 机 加 


w (x)? +w (x) +b =0 
变换 成 为 新 空间 中 的 直线 
wz +w,z)+b=0 


在 变换 后 的 新 空间 里 ， 直 线 wjzuw+wazo+b=0 可 以 将 变换 后 的 正 负 实 
例 点 正确 分 开 。 这 样 ， 原 空间 的 非 线性 可 分 问题 就 变 成 了 新 空间 的 线 
性 可 分 问题 。 


上 面 的 例子 说 明 ， 用 线性 分 类 方法 求解 非 线性 分 类 问题 分 为 两 步 ， 首 
先 使 用 一 个 变换 将 原 空 间 的 数据 映射 到 新 空间 ， 然 后 在 新 空间 里 用 线 
竹 分 类 学 习 广 法 从 训 红 数据 中 学 习 分 类 模型 。 核 技巧 就 属于 这 样 的 方 
y oO 

核 技巧 应 用 到 支持 向 量 机 ， 其 基本 想法 就 是 通过 一 个 非 线性 变换 将 输 
入 空间 ( 欧 氏 空间 R' 或 离散 集合 对 应 于 一 个 特征 空间 ( 希 尔 伯 特 空 
EH) ， 使 得 在 输入 空间 R* 中 的 超 曲面 模型 对 应 于 特征 空间 Xt 中 的 超 
平面 模型 (支持 向 量 机 ) 。 这 样 ， 分 类 问题 的 学 习 任务 通过 在 特征 空 
间 中 求解 线性 支持 向 量 机 就 可 以 完成 。 


2. 核 函 数 的 定义 
定义 7.6 (RBM) ” 设 x 是 输入 空间 〈 欧 氏 空间 R "的 子 集 或 离散 集 


合 ) , SUH 为 特征 空间 〈 硕 尔 伯 特 空间 ) ， 如 采 存 在 一 个 从 x 到 
的 映射 


(x): X >H (7.65) 
使 得 对 所 有 xzex， 画 数 Kx z) 满 足 条 件 
K(x,z)= G(x) "8(2) (7.66) 


MEKKE, 2) ATK BEL, G(x) APR AL, ZO O(x)-OZAG(*R)AG(Z)H 
H o 


ZN 


核 技巧 的 想法 是 ， 在 学 习 与 预测 中 只 定义 核 画 数 K(xZ)， 而 不 显 式 地 

定义 映射 画 数 @。 通 常 ， 直 接 计 算 K(x,z) 比 较 容易 ， 而 通过 @(x) 和 Q(z) 

计算 K(x,z) 并 不 容易 。 注 意 ，@ 是 输入 空间 R"' 到 特征 空间 拓 的 映射 ， 

特征 空间 7 一 般 是 高 维 的 ， 甚 至 是 无 穷 维 的 。 可 以 看 到 ， 对 于 给 定 的 

a HIES EH 和 了 映射 函数 gg 的 取 法 并 不 唯一 ， 可 以 取 不 同 的 特 
空间 ， 即 便 是 在 同一 特征 空间 里 也 可 以 取 不 同 的 映射 。 

下 面 举 一 个 简单 的 例子 来 说 明 核 函数 和 映射 函数 的 关系 。 


例 7.3 ”假设 输入 空间 是 R: ， 核 画 数 是 K(xzZ)=(x2):， 试 找 出 其 相关 
的 特征 空 SEIH 和 映射 BOO:R: >H ° 


解 ” 取 特征 空间 KH =R*， 记 x=(xoxo)r，z=(zojzo)7， 由 于 
Co) SY ey a Gy 
所 以 可 以 取 映 射 
B(x) = (GO V2x9x? XP)" 
容易 验证 @(x)-@(z)= (xz)? = K(x,z) ° 
TBH = 有 R :以 及 


MD= -万 ( - (x' a ae Ox" x (2) COP +i Fy 


同样 有 @(x)-@(z)= (x-z)? =K(x,z) ° 
AAT ARH = 有 R* 和 

Rost yee ee ey a 
3. 核 技巧 在 支持 向 量 机 中 的 应 用 


我 们 注意 到 在 线性 文 持 回 量 机 的 对 倘 问 题 中 ， 无 论 是 目标 函数 还 是 决 
RKA (分 离 超 平 面 ) 都 只 涉及 输入 实例 与 实例 之 间 的 内 积 。 在 对 偶 


问题 的 目标 函数 (7.37) 中 的 内 积 x jxj 可 以 用 核 男 数 K(x;，x;)==O(xi 
)-@(xj) 来 代 蔡 。 此 时 对 偶 问 题 的 目标 函数 成 为 


We) = > dae, NPK (Sž) — Ya (7.67) 
FE, RR EA HATA PR ey CARER, TP RRR EN AY 


f(x) =sign Ya yga )A(x)+h = sn| Ya K(x, x) +b (7.68) 
i=l i=l 


eT FE RAT Es BOE OR AT A Ze TB] SEGRE — TAPE 8 
i 将 输入 衬 间 中 的 内 积 xiXj SERN PIES H PARO VOE) 
在 新 的 特征 空 s 间 里 从 训练 样本 中 学 习 线 性 支持 向 量 机 。 = PRT EKA 


aa KHAT, FA BUA AEN BAY) SC A Le PATE a a 


CDE, TARAKA EMA TER, BY DUARTE SD Se I) el 
的 方法 求解 非 线 性 分 类 问题 的 文 持 癌 量 机 。 学 习 是 隐 式 地 在 特征 空间 
进行 的 ， 不 需要 显 式 地 定义 特征 空间 和 映射 画 数 。 这 样 的 技巧 称 为 核 
技巧 ， 它 十 巧妙 地 利用 线性 分 类 学 习 方 法 与 核 范 数 解决 非 线性 问题 的 
技术 。 在 实际 应 用 中 ， 往 往 依 赖 领域 知识 直接 选择 核 画 数 ， 核 贸 数 选 
择 的 有 效 性 需要 通过 实验 验证 。 


7.3.2 ”正定 核 


已 知 映射 函数 @, 可 以 通过 G(x) 和 G(z) 的 内 积 求 得 核 男 数 K(x,z)。 不 用 构 
造 映射 G(x) 能 否 直 接 判 断 一 个 给 定 的 函数 K(x,z) 是 不 是 核 范 数 ? 或 者 
W, FAKO E A REA BER 


ANTI BM TE ITE ERA IC SEAR Eo E ATU KRE EETA EBL 
(positive definite kernel function) 。 为 证 明 此 定理 先 介绍 有 关 的 预备 


知识 。 


假设 K(x,z) 是 定义 在 xxx 上 的 对 称 函 数 ， 并 且 对 任意 的 x 1 ,X 5,...,Xm 
Ex，K(X,z) 天 于 Xx] ,xXx,,.….,Xm 的 Gram 和 矩阵 是 半 正 定 的 。 可 以 依据 范 数 
K(x,z)， 构 成 一 个 希 尔 伯 特 空 间 (Hilbert space) ， 其 步骤 是 : 首先 定 
义 映 射 g 并 构成 回 量 空间 S ; 然后 在 S 上 定义 内 积 构成 内 积 空间 ;， 最 
后 将 S 完备 化 构成 希 尔 伯 特 空间 。 
1. CH, RASS S 
对 定义 映射 

办 :X 一 天 (.,X) (7.69) 


根据 这 一 映射 ， 对 任意 x, ex, a, eR，i=1,2,...,m， 定 义 线性 组 合 
f(+)= > a,K(+,x,) (7.70) 
i=l 


考 虚 由 线性 组 合 为 元 素 的 集合 S。 由 于 集合 S 对 加 法 和 数 乘 运算 是 封 
闭 的 ， 所 以 S 构成 一 个 同 量 空 间 。 
2. 在 S 上 定义 内 积 ， 使 其 成 为 内 积 空间 


在 S 上 定义 一 个 运算 +， 对 任意 f,geS ， 


1()= Doak) (7.71) 

eO =È AK2) (7.72) 
定义 运算 * 

DTA ER (7.73) 


il jel 


证 明 运 算 * 是 空间 S 的 内 积 。 为 此 要 证 : 


(1) (cf)*g=c(f/*g), ceR (7.74) 


(2) (f+g)*h=f*h+g*h, heS (7.75) 
(3) f*g=grf (7.76) 
(4) 三 * 三 三 0， (7.77) 

f*f=0 f=0 (7.78) 


其 中 ，(D~ (3) 由 式 (7.70) ~I (7.72) 及 K(x,z) 的 对 称 性 容易 得 
到 。 现 证 (4) 之 式 (7.77) 。 由 式 (7.70) 及 式 (7.73) 可 得 : 


f*f= > EG) 


i,j=l 


由 Gram 和 矩阵 的 半 正 定性 知 上 式 右 端 非 负 ， 即 f*f>0 ° 


:3 (4) 之 式 (7.78) 。 充 分 性 显然 。 为 证 必要 性 ， 首 先 证 明 不 等 
ZN: 


| feel <(f* f\(g*g) (7.79) 
i, f, ses, AER, fA geS ， 于 是 ， 
(f +Ag)*(f +Ag)=0 
f*f+2A(f*g)+A(g*g)=0 
其 左 端 是 4 的 二 次 三 项 式 ， 非 负 ， 其 判别 式 小 于 等 于 0， 即 
(f*g) -(f* f\(g*g) <0 
于 是 式 (7.79) 得 证 。 现 证 若 fxf=0， 则 f=0。 事 实 上， 阁 
1()= 2 K(x) 
i=] 


则 按 运算 * 的 定义 式 (7.73) ， 对 任意 的 xsx， 有 


K(x)* f= aK (x)= £00) 


If) Pa K(x) * f P (7.80) 
Fst (7.79) MEN (7.77) A 
|K(+.x)* f P< (K(-,x) * K DNS * f) = K(x, xf * f) 
由 式 (7.80) 有 
| f(x) P< K(x, x)(f * f) 
此 式 表 明 ， 当 f*f= 0 时 ， 对 任意 的 x 都 有 |f(x)|==0 
至 此 ， 证 明了 * 为 向 量 空间 S 的 内 积 。 赋予 内 积 的 向 量 空间 为 内 积 空 


间 。 因 此 S 是 一 个 内 积 空 间 。 既 然 * 为 S 的 内 积 运算 ， 那么 仍然 用 : 表 
示 ， 即 车 


f(°)= ,aK(,%), g(°)=2,P,K(.,z,) 
则 


m i 
f-g=) > a,B,K(x,z,) (7.81) 


i=l j=l 


3. 将 内 积 空间 S 完备 化 为 希 尔 伯 特 空间 
现在 将 内 积 空间 ,S 完备 化 。 由 式 (7.81) 定义 的 内 积 可 以 得 到 范 数 
ISIEN- (7.82) 


S 是 一 个 赋 范 辐 量 空间 。 根 据 泛 函 分 析 理 论 ， 对 于 不 完备 的 赋 
范 回 量 空间 S ， 一 定 可 以 使 之 完备 化 ， 得 到 完备 的 赋 范 问 量 空间 。 


一 个 内 积 空间 ， 当 作为 一 个 赋 范 辐 量 空间 是 完备 的 时 候 ， 残 是 希 尔 介 
符 空间 。 这 样 ， 束 得 到 了 项 尔 伯 特 空间 KH 。 


这 一 硕 尔 伯 特 空间 7 称 为 再 生 核 希 尔 伯 特 空间 (reproducing kernel 
Hilbert space, RKHS) 。 这 是 由 于 核 K 具 有 再 生性 ， 即 满足 


K(+,x)+f = f(x) (7.83) 
及 

K(+,x)+K(+,z) = K(x,z) (7.84) 
称 为 再 生 核 。 


4. 正定 核 的 充 要 条 件 


定理 7.5 (正定 核 的 充 要 条 件 ) BRK: X xX ~R 是 对 称 画 数 ， 则 
K(X,Z 为 正定 核 画 数 的 充 要 条 件 是 对 任意 xie 世 ，i=1,2,...,m，K(x,z) 
XT VAGram FE: 


K =| KG ) | (7.85) 


是 半 正定 矩阵 。 


证 明 VRIE o HFK DEX xX 上 的 正定 核 ， 所 以 存在 从 苞 IA 
处 伯 特 空间 KK 的 映射 @， 使 得 


K(x,z) = 0(x) :9(z) 
于 是 ， 对 任意 xi ,x ,,..….,Xx,，， 构 造 K(x,z) 关 于 x 1] ,x ,,.….,Xm Grama 
[Km = LK OX; nx 


WLR 1.Co5-5C ER, A 


> ce, K(x,,x;) = > CC (olx) P(x, )) 
i,j=1 i, j=l 


= (Lesa be ) = Leas) = 0 
表明 K(x,z) 关 于 x 1 ,x 95-05X p HI Gram EEF EEH © 


ETIE o CLAD PREN BLK (x2) ERX 1 ,xX ,5,...,Xm EX，K(X,z) 天 于 X 1 ,X 2 
,…Xm 的 Gram 甜 阵 是 半 正 定 的。 根据 前 面 的 结果 ， 对 给 定 的 K(x,z)， 
可 以 构造 从 世 到 某 个 布尔 伯 特 空间 7 的 映射 : 


@:x— K(-,x) (7.86) 
由 式 (7.83) 可 知 ， 


K(x) f = f(x) 
并 且 
K(-,x)+K(+,z) = K(x,z) 
由 式 (7.86) 即 得 
K(x,z) = $(x)-$(z) 
RIIK, EX x EAVKENEL © 


定理 给 出 了 正定 核 的 充 要 条 件 ， 因 此 可 以 作为 正定 核 ， 即 核 函 数 的 另 
—FE Le 


定义 7.7 (正定 核 的 等 价 定义 ) iY CR", K(x,2) EEN xX E 
的 对 称 函 数 ， 如 果 对 任意 xie 世 ，i 二 1,2,...,m，K(%,z) 对 应 的 Gram 短 
阵 


=| K(x,x,)|__ (7.87) 


征 半 正定 和 矩阵， 则 称 K(xZ 是 正定 核 。 


这 一 定义 在 构造 核 贺 数 时 很 有 用 。 但 对 于 一 个 具体 函数 K(x,z) 来 说 ， 
检验 它 是 否 为 正定 核 贸 数 并 不 容易 ， 因 为 要 求 对 任意 有 限 输 入 集 {x | 
，X5，..Xn} 验 证 K 对 应 的 Gram 矩阵 是 否 为 半 正 定 的 。 在 实际 问题 中 
往往 应 用 已 有 的 核 男 数 。 另 外 ， 由 Mercer 定 理 可 以 得 到 Mercer 核 

(Mercer Kernel) 四， 正定 核 比 Mercer 核 更 具 一 般 性 。 下 面 介 绍 一 些 
第 用 的 核 贺 数 。 


7.3.3 TAK 


1. ZHAK (polynomial kernel function ) 
K(x,z)=(x-z+l1)’ (7.88) 


oe Np 次 多 项 式 分 类 器 。 在 此 情形 下 ， 分 类 决策 画 
数 成 关 


f(x)= se| Sent ox+1)? + 3 (7.89) 
i=] 
2 ° AAZ (Gaussian kernel function) 
E a 
x,Z)=exp| 一 一 一 一 一 (7.90) 
20° 


YT VAST Te Le ee 4 eI ELH AL (radial basis function) 分 类 器 。 
在 此 情形 下 ， 分 类 决策 函数 成 为 


N, -—_ ol 
f(x) =sign | diary, exp SI) +h (7.91) 
= 


i=l 


3. 字符 申 核 琅 数 (string kernel function) 


核 函 数 不 仅 可 以 定义 在 欧 氏 空间 上 ， 还 可 以 定义 在 离散 数据 的 集合 
上 。 比 如 ， AFRESH BES LAK HR RAR 
在 文本 分 类 、 信 息 检索 、 生 物 信息 学 等 方面 都 有 应 用 。 

考虑 一 个 有 限 字 符 表 三 。 字 符 吕 s 是 从 于 中 取出 的 有 限 个 字符 的 序列 ， 
包括 空 字符 串 。 字 符 串 s 的 长 度 用 |s| 表 示 ， 它 的 元 素 记 作 s(1)s(2)... 
s(s)。 两 个 字符 串 s 和 t 的 连接 记 作 st。 所 有 长 度 为 n 的 字符 串 的 集合 记 
ES", MEFFRE =" 


考虑 字符 串 s 的 子 串 u。 给 定 一 个 指标 序列 i= G, ioi) 1si1<i3 
<..-<ijy ls|，s 的 子 串 定义 为 u=sQ) 二 s(i1)s(i2).…s(iju)， 其 长 度 记 作 
Siyi +1 ° WREE, MOS a; 否则 ，l1GD>lul 。 


假设 S 是 长 度 大 于 或 等 于 n 字 符 串 的 集合 ，s 是 S 的 元 素 。 现 在 建立 字 

BRAS 到 特征 空间 好 ,= RY WER On(s) ° Re" 表示 定义 在 互 "上 

的 实数 空间 ， 其 每 一 维 对 应 一 个 字符 串 ue5"， 了 映射 Gn(s) 将 字符 串 s 对 
应 于 空间 RY?” 的 一 个 同 量 ， 其 在 u 维 上 的 取 值 为 


[i (7.92) 


Es(i)=u 


XE, 04 <1 是 一 个 衰减 参数 ，1() 表 示 字 符 串 i 的 长 度 ， 求 和 在 s 中 所 
有 与 u 相 同 的 子囊 上 进行 。 


例如 ， 假 设 了 为 英文 字符 集 ，n 为 3，S 为 长 度 大 于 或 等 于 3 的 字符 串 的 
集合 。 考 虑 将 字符 集 S 映射 到 特征 空间 Hs3。H ;的 一 维 对 应 于 字符 串 
asd。 这 时 ， 字 符 串 “Nasdagq” 与 "lass das” 在 这 一 维 上 的 值 分 别 是 [@ 5 
(Nasdaq)] ;sq 二 多， 和 [@ 3(assDdas)] ag =2A° (GNA) 。 在 第 1 个 字 
符 串 里 ，asd 是 连续 的 子 串 。 在 第 2 个 字符 串 里 ，asd 是 长 度 为 5 的 不 连 
续 子 串 ， 共 出 现 2 次 。 


ee 字符 串 核 贸 数 是 基于 映射 Gn 的 特征 空间 中 的 内 
H 


ZN: 


K,(s.0)= (4, OLA (Ol = 2 >. Ana (7.93) 


ued" (i JNS =t j =u 


字符 串 核 函数 k , (s,t) 给 出 了 字符 串 s 和 t 中 长 度 等 于 n 的 所 有 子 串 组 成 的 
特征 问 量 的 余弦 相似 度 (cosine similarity) 。 直观 上 ， 两 个 字符 串 相 
同 的 子 串 越 多 ， 它 们 束 越 相似 ， 字 符 串 核 男 数 的 值 束 越 大 。 字 符 串 核 
函数 可 以 由 动态 规划 快速 地 计算 。 


7.3.4” 非 线性 支持 向 量 分 类 机 


如 上 所 述 ， 利 用 核 技巧 ， 可 以 将 线性 分 类 的 学 习 方 法 应 用 到 非 线性 分 
类 问题 中 去 。 将 线性 支持 癌 量 机 扩展 到 非 线性 支持 同 量 机 ， 只 需 将 线 
性 支持 向 量 机 对 仿 形 式 中 的 内 积 换 成 核 琅 数 。 


定义 7.8 〈 非 线性 支持 向 量 机 ) 从 非 线 性 分 类 训练 集 ， 通 过 核 画 数 与 
a 或 凸 二 次 规划 (7.95) ~ (7.97) ， 学 习 得 到 的 分 类 决 
EN 


N 
f(x) =sign | >a yK, x,)+ pb (7.94) 
i=] 


称 为 非 线性 支持 向 量 ，K(x,z) 是 正定 核 画 数 。 


下 面 灾 述 非 线性 文 持 向 量 机 学 习 算 法 。 
算法 7.4 〈 非 线性 支持 向 量 机 学 习 算法 ) 


Re, yep ={L+1}, i=1,2,N; 


输出 : DRRR KE ° 
(1) 选取 适当 的 核 画 数 K(x,z) 和 适当 的 参数 C， 构 造 并 求解 最 优化 问 


题 


0 (7.95) 
=] j=l i=l 


min 


S.t. zay, =0 (7.96) 
0<a SC, i=1,2,---,N (7.97) 
求 得 最 优 解 a = (@ ,a,",...,,)" ° 


(2) 选择 a* 的 一 个 正 分 量 0<@; <C， 计 算 
六 -KG +x) 
(3) 构造 决策 函数 : 
fs) =signl Za; Ke) +8 n 
ia 


当 K(x,z) 是 正定 核 画 数 时 ， 问 题 (7.95) ~ (7.97) eC ALG 
题 ， 解 是 存在 的 。 


7.4 序列 最 小 最 优化 算法 


本 下 讨论 文 持 回 量 机 学 习 的 实现 问题 。 我 们 知道 ， 文 持 癌 量 机 的 学 习 
问题 可 以 形式 化 为 求解 凸 二 次 规划 问题 。 这 样 的 西 二 次 规划 问题 具有 
全 局 最 优 解 ， 并 且 有 许多 最 优化 算法 可 以 用 于 这 一 问题 的 求解 。 但 是 
当 训 练 样本 容量 很 大 时 ， 这 些 算 法 往往 变 得 非常 低 效 ， 以 致 无 法 使 
用 。 所 以 ， 如 何 高 效 地 实现 文 持 向 量 机 学 习 就 成 为 一 个 重要 的 问题 。 
目前 人 们 已 提出 许多 快速 实现 算法 。 本 节 讲 述 其 中 的 序列 最 小 最 优化 
minimal optimization, SMO) 算法 ， 这 种 算法 1998 年 由 

Platt 提 出 。 


SMO 算 法 要 解 如 下 凸 二 次 规划 的 对 伪 问 题 : 


min 


N WN N 
a =» 2 aayy Kx) -2,0 (7.98) 
Seat fal i=l 


N 
st. ) ay, =0 (7.99) 


lv 
i=l 


0<a,<C, i=1,2,---,N (7.100) 


在 这 个 问题 中 ， 变 量 是 拉 格 朗 日 乘 子 ， 一 个 变量 ai 对 应 于 一 个 样本 点 
Giyi) 变量 的 总 数 等 于 训练 样本 容量 N 。 


SMO 算 法 是 一 种 局 发 式 算法 ， 其 基本 思路 是 : 如 果 所 有 变量 的 解 都 满 
足 此 最 优化 问题 的 KKT 条 件 (Karush-Kuhn-Tucker conditions) ， 那 么 
这 个 最 优化 问题 的 解 就 得 到 了 。 因 为 KKT 条 件 是 该 最 优化 问题 的 充分 
必要 条 件 。 和 否则 ， 选 择 两 个 变量 ， 固 定 其 他 变量 ， 针 对 这 两 个 变量 构 
建 一 个 二 次 规划 问题 。 这 个 二 次 规划 问题 天 于 这 两 个 变量 的 解 应 该 更 
接近 原始 二 次 规划 问题 的 解 ， 因 为 这 会 使 得 原始 二 次 规划 问题 的 目标 
函数 值 变 得 更 小 。 重 要 的 是 ， 这 时 子 问题 可 以 通过 解析 方法 求解 ， 这 
样 就 可 以 大 大 提高 整个 算法 的 计算 速度 。 子 问题 有 两 个 变量 ， 一 个 是 
违反 KKT 条 件 最 严重 的 那 一 个 ， 另 一 个 由 约束 条 件 目 动 确定 。 如 此 ， 
SMO 算 法 将 原 问 题 不 断 分 解 为 子 问 题 并 对 子 问题 求解 ， 进 而 达到 求解 
原 问 题 的 目的 。 


注意 ， 子 问题 的 两 个 变量 中 只 有 一 个 是 自由 变量 。 假 设 a 1 ，a, 为 两 个 
变量 ，a ,a4,.……aN 固 定 ， 那 么 由 等 式 约束 (7.99) 可 知 


a = an 
如 有 果 a ,确定 ， 那 么 a 1 也 随 之 确定 。 所 以 子 问题 中 同时 更 新 两 个 变量 。 


整个 SMO 算 法 包括 两 个 部 分 ， 求解 两 个 变量 二 次 规划 的 解析 方法 和 选 
择 变量 的 局 发 式 方法 。 


7.4.1 ”两 个 变量 二 次 规划 的 求解 方法 


不 失 一 般 性 ， 假 设 选择 的 两 个 变量 是 a 1,a，， 其 他 变量 a;(i=3,4,.…,N) 
是 国定 的 。 于 是 SMO 的 最 优化 问题 (7.98) ~ (7.100) 的 子 问题 可 以 


l ox gd > 
min W(a@,,a,)= Pana) + 了 人 :202 + V,y,K,,a@,a@, 
Gi a» 


N N 
(a, +a,)+y,a,) yo Ka + V:A, VAK (7.101) 
i 3 i 3 


i 
S.t. @y,+Q,y,= -9 ya, =ç (7.102) 
i=3 
0Sa,SC, i=1,2 (7.103) 
=K(x;, xj)i, j=12,...N, 9 是 常数 ， 目 标 函 数 式 


A, Kj 
(7.101) 中 省 略 了 不 含 ai ,a ,的 常数 项 。 


为 了 求解 两 个 变量 的 二 次 规划 问题 (7.10D)~-(7.103)， 首 先 分 析 约 束 条 
件 ， 然 后 在 此 约束 条 件 下 求 极 小 。 


由 于 只 有 两 个 变量 (ai,a,)， 约 束 可 以 用 二 维 空间 中 的 图 形 表 示 (如 图 
7.8 所 示 ) 。 


a,=0 
yy = ya > Q- =k y=y 0+ =k 


图 7.8 ”二 变量 优化 问题 图 示 


不 等 式 约束 (7.103) 使 得 (a 1,a,) 在 盒子 [0,C ]x[0,C ] 内 ， 等 式 约束 

(7.102) 使 (a ,a,) 在 平行 于 盒子 [0,C ]x [0,C ] 的 对 角 线 的 直线 上 。 
此 要 求 的 是 目标 函数 在 一 条 平行 于 对 角 线 的 线段 上 的 最 优 值 。 这 使 得 
两 个 变量 的 最 优化 问题 成 为 实质 上 的 单 变量 的 最 优化 问题 ， 不 妨 考虑 
为 变量 a, 的 最 优化 问题 。 


假设 问题 《7.101D 一 (7.103) 的 初始 可 行 解 为 wy ,qs* ， 最 优 解 为 or , 
css" ， 并 且 假 设 在 沿 着 约束 方向 未 经 剪辑 时 ay 的 最 优 解 为 ase" o 


Has 需 满足 不 等 式 约 束 (7.103) ， 所 以 最 优 值 a3™ 的 取 值 范围 必 
须 满足 条 件 


L<a™ <H 
其 中 ,LL 与 H 是 g3” 所 在 的 对 角 线段 端点 的 界 。 如 果 y1zy，。( 如 图 7.8 左 
图 所 示 ) ， 则 


L=max(0,a3" —a@"), H =min(C,C +a," - a") 


如 果 y; =y; (如 图 7.8 右 图 所 示 ) ， 则 


L=max(0,a$" +a” -C)+ H=min(C,a$" +a“) 
下 面 ， 首 先 求 沿 着 约束 方 问 未 经 筋 答 即 未 考虑 不 等 式 约束 (7.103) 时 
a ,的 最 优 解 3?™ ;然后 再 求 剪 辑 后 ay, 的 解 wz” 。 我 们 用 定理 来 叙述 
这 个 结果 。 为 了 叙述 简单 ， 记 


N 
g(x) => a,y,K(x,.x) +b (7.104) 


i=l 


令 


N 
E, = g(x;)-J, -Saree —y,» i=1,2 (7.105) 
j=l 


当 i=12 时 ， 卫 i 为 男 数 gC9 对 输入 xi 的 预测 值 与 真实 输出 yi 之 差 。 


定理 7.6 ”最 优化 问题 (7.101) ~ (7.103) 党 着 约束 方向 未 经 剪辑 时 
的 解 是 


old iy yy (ZB, = E,) 


Be 一 一 a, (7. 100) 
7] 
其 中 ， 
n= K,, + Ky, -2K,, =E) -oa (7.107) 


@(x) 是 输入 空间 到 特征 空间 的 映射 ，Ei; ，i=12， 由 式 (7.105) 给 
出 o 


经 剪辑 后 a ,的 解 是 


ere >H 
or = or, | tala <H (7.108) 
A ao ral i 


Har” Khi 是 
grn = an i Vr Cg —as") (7. 109) 


证 明 引进 记号 


N 2 
y, = > 2,9 KGs%,)= g(x,)— )oa,y,K(x,,x,)—b » i=1,2 
j=3 j=l 


目标 函数 可 写成 


] w A 3 
W(a,,a,)= z ia tana + y,y,K,,a@,a, 


一 (Qi + Q@,)+ Yna + y,V,a, (7.110) 


Hayy; =S-aoyo ky? 二 1， 可 将 a | 表示 为 
A, =(6— y,0,) 


RAR (7.110) ， 得 到 只 是 ay; 的 画 数 的 目标 画 数 : 


l “D ; 
W(a,) a ke “aad Hra + YK (6 ~ @,y,)a, 
—($ — A, )Y, — A, +V- A, V2) + yy,v,0, 
对 av, 求 导 数 


ow 
a, 


oe Ki0, Kna, = 2K 28, 


& 


—K,, Sy, + K,.Sy. + YY. —1— vy, + yV 
令 其 为 0， 得 到 
(K,, F K,, —-2K,,)a, = y, (y =i +K = çK +v —v,) 


wai? Ẹ -y+oK -SK tg) -Drak, -b 
j=l 


seo- yy aK, | 


将 5 =a y ite YIA; 得 到 


(K,, + K,, -2Ki)a = y,((K,, + Kz -2K 2)@3 y, + Y, — y, tE) 
=(K,, + K,, —2K,,)a3" + y,(E, -E,) 


将 7 二 K11+K 5,-2K 1, 代 入， 于 是 得 到 


a = as i y(E, = E,) 
7 


要 使 其 满足 不 等 式 约束 必须 将 其 限制 在 区 间 区 ， 陡 内 ， 从 而 得 到 o2”” 
的 表达 式 (7.108) 。 由 等 式 约束 (7.102) ， 得 到 wsee 的 表达 式 

(7.109) 。 于 是 得 到 最 优化 问题 (7.101) ~ (7.103) 的 解 (a ,a2™ 
) o 


7.4.2 ”变量 的 选择 方法 


SMO 算 法 在 每 个 子 问题 中 选择 两 个 变量 优化 ， 其 中 至 少 一 个 变量 是 违 
反 KKT 条 件 的 。 


1. 第 1 个 变量 的 选择 
SMO 称 选择 第 1 个 变量 的 过 程 为 外 层 循环 。 外 层 循环 在 训练 样本 中 选 


取 违 反 KKT 条 件 最 闫 重 的 样本 点 ， 并 将 其 对 应 的 变量 作为 第 1 个 变 
量 。 具 体 地 ， 检 验 训练 样本 点 (x;，y;) 是 否 满 足 KKT 条 件 ， 即 


æ, =0 & yg(x) 2l CALLI) 
0<a,<C Sy g(x,)=1 (7.112) 
æa, =C © y.2(x,)S1 RELS) 


N 
EH, g(x) =>dla,y,K(x,.x,)+b o 
j=l 


tee TEE 范围 内 进行 的 。 在 检验 过 程 中 ， 外 层 循环 首先 过 历 所 有 
满足 条 件 0<a;<C 的 样本 上 操 ， 即 在 间 阳 边界 上 的 支持 疝 量 点 ， 检 和 验 它 们 
征 否 满足 KKT 条 件 。 如 有 宁 这 些 样本 点 都 满足 KKT 条 件 ， 那 么 过 历 整个 
训练 集 ， 检 验 它们 是 否 满 足 KKT 条 件 。 


2. 第 2 个 变量 的 选择 

SMO 称 选择 第 2 个 变量 的 过 程 为 内 层 循环 。 假 设 在 外 层 循环 中 已 经 找 
到 第 1 个 变量 a 1 ， 现 在 要 在 内 层 循 环 中 找 第 2 个 变量 a 。。 第 2 个 变量 选 
择 的 标准 是 希望 能 使 a ， 有 足够 大 的 变化 。 


由 式 (7.106) 和 式 (7.108) FFI, as” 是 依赖 于 臣 ;-E ,| 的 ， 为 了 加 
快 计算 速度 ， 一 种 简单 的 做 法 是 选择 a, ， 使 其 对 应 的 区 ;1-E ,| 最大。 
为 ai 已 定 ，E ;也 确定 了 。 如 果 E | 是 正 的 ， 那 么 选择 最 小 的 E ;作为 E， 
; 如 果 E 1 是 负 的 ， 那 么 选择 最 大 的 E MEKE, o 为 了 方 省 计算 时 间 ， 
将 所 有 E; 值 保存 在 一 个 列表 中 。 

在 特殊 情况 下 ， 如 有 果 内 层 循环 通过 以 上 方法 选择 的 a , 不 能 使 目标 函数 
有 足够 的 下 降 ， 那 么 采用 以 下 局 发 式 规 则 继续 选择 a，。。 a CEMA) BZ 
界 上 的 文 持 向 量 点 ， 依 次 将 其 对 应 的 变量 作为 a* 试用 ， 直 到 目标 函数 
有 足够 的 下 降 。 若 找 不 到 合适 的 a, ， 那 么 遍历 训练 数据 集 ; 若 仍 找 不 
到 合适 的 ay ， 则 放弃 第 1 个 a1 ， 再 通过 外 层 循 环 寻求 另外 的 al 。 

3. 计算 阔 值 b 和 差 值 E ; 


在 每 次 完成 两 个 变量 的 优化 后 ， 都 要 重新 计算 阔 值 b。 当 0<afe” <C 
时 ， 由 KKT 条 件 (7.112) 可 知 : 


N 
Day Ky +b=y, 


i=l 


i 
B~ = y -Y ay; Ka — a" y,K,, -oy,K, (7.114) 
i=3 
由 E 1 的 定义 式 (7.105) 有 
N 
E, = Vay K z CQ y, Kı T aS WiKi = be = 


式 (7.114) 的 前 两 项 可 写成 : 


N 
Id Id rd 
Y, -$ a,y;K, =-E +a yK +a, y,K,, +b 
i=3 


RAS (7.114) ， 可 得 


b™ =—E, -yK (a -a )- y Ka (a —as")+b™ (7.115) 
ARE, WR <C， 那 么 ， 
pr = -E, _ y, K,, fs = a ) = Yy Kop” = as ) 十 be (7.1 16) 


RO FRO os 同时 满足 条 件 0<a*™ <C，i=12， 那 么 如” =b" 。 如 
Rar” as 是 0 或 者 C， 那 么 如 ™ 和 BW 以 及 它们 之 间 的 数 都 是 符合 
KKT 条 件 的 立 值 ， 这 时 选择 它们 的 中 点 作为 b* o 


在 每 次 完成 两 个 变量 的 优化 之 后 ， 还 必须 更 新 对 应 的 E; 值 ， 并 将 它们 
保存 在 列表 中 。E; 值 的 更 新 要 用 到 b… 值 ， 以 及 所 有 支持 问 量 对 应 的 aj 


Eee = > ya K(x, EA ) af: pb 一 了 (7. 7) 


S 


其 中 ，S 是 所 有 支持 问 量 jx 的 集合 。 
74.3 ”SMO 算法 
算法 7.5 (SMO 算 法 ) 


输入 : 训练 数据 集 T= {(x1 ，y1),(X2,72),…,(XN;yN)}， 其 中 ，xi Ex 
=R’, y; Ey = {-1,+1}, 1 三 12,...N， KEE : 


(1) 取 初 值 ao =0, Sk=0; 


(2) 选取 优化 变量 a® ,at ， 解 析 求 解 两 个 变量 的 最 优化 问题 (7.101) 
一 (7.103)， 求 得 最 优 解 a**? ak? ， 更 新 a 为 wwrD ; 


(3) 大 在 精度 @ 范围 内 满足 停机 条 件 


Zi {x,|a,=0} 
7 .80)=1=1]， {x|0<a,<C)} 


SL aC 


= 


N 
2g(x,)= > 2,7, K(x,,x,)+b 


j=l 


Wee (4) ; 否则 令 k=k+1， 转 (2) ; 


(4) Reg = qt) ° 


本 章 概要 


1. 文 持 疝 量 机 最 简单 的 情况 十 线 性 可 分 支持 向 量 机 ， 或 硬 间 隔 文 持 癌 
量 机 。 构 建 它 的 条 件 是 训练 数据 线性 可 分 。 其 学 习 策 略 是 最 大 间隔 
法 。 可 以 表示 为 凸 二 次 规划 问题 ， 其 原始 最 优化 问题 为 


min hf 


wb 
St y(wex,+b)-120, i=1,2,…,N 


和 最 优化 问题 的 解 为 w" ，b  ， 得 到 线性 可 分 文 持 回 量 机 ， 分 离 超 平 


4B 
本 
= 

KE 


w ext+b =0 


f(x) =sign(w’ -x +b’) 
最 大 间隔 法 中 ， 画 数 间隔 与 几何 间隔 是 重要 的 概念 。 


线性 可 分 支持 同 量 机 的 最 优 解 存 在 且 唯 一 。 位 于 间隔 边界 上 的 实例 点 
为 支持 向 量 。 最 优 分 离 超 平面 由 支持 癌 量 完全 决定 。 


二 次 规划 问题 的 对 侦 问 题 是 


N 


; LX 
min z2, dsj Vid iH a >, 
& i=l j=l 


i=l 


gt > ay, =0 


a,20, i=1,2,.…,N 
通常 ， 通 过 求解 对 偶 问 题 学 习 线 性 可 分 文 持 回 量 机 ， 即 百 先 求解 对 偶 
问题 的 最 优 值 a*， 然 后 求 最 优 值 w* 和 b"， 得 出 分 离 超 平面 和 分 类 决策 
画 数 。 
2. 现实 中 训练 数据 是 线性 可 分 的 情形 较 少 ， 训 | 练 数据 往往 是 近似 线性 
可 分 的 ， 这 时 使 用 线性 支持 向 量 机 ， 或 软 间隔 支持 向 量 机 。 线 性 支持 
向 量 机 是 最 基本 的 支持 向 量 机 。 
对 于 噪声 或 例外 ， 通 过 引入 松弛 变量 < 上 ij ， 使 其 “可 分 *"， 得 到 线性 支持 
回 量 机 学 习 的 吓 二 次 规划 问题 ， 其 原始 最 优化 问题 是 


, 1) ,2 ` 
min —||w + Cy: 6 
w,b,é 2 jl 号 


s.t. y(wex,+b)21-€, i=1,2,---,N 


Ege Ue ects oe Greece eee eager 


w -x+bh’ =0 
分 类 决策 函数 为 
f(x) =sign(w -x+b’) 
线性 可 分 支持 向 量 机 的 解 w 唯一 但 b 不 唯一 。 
对 偶 问 题 是 


N 


| N N 
min 7 > > aayy, (x, +x) > 2a 


Sit, Yay, =0 


OPES? FF TA] BLA BA IG, ECO AREY E a ep ae TT fa, 
PR Jae Uae Tal eae VC ew Mb, hD SEF TB A RRR EKR 


对 偶 问 题 的 解 a * FYB ae,” >0 的 实例 后 x i; 称 为 支持 癌 量 。 文 持 疝 量 可 在 
间 隅 边界 上 ， 也 可 在 间隔 边界 与 分 离 超 平面 之 间 ， 或 者 在 分 离 超 平面 
误 分 一 侧 。 最 优 分 离 超 平面 由 文 持 疝 量 完全 决定 。 


线性 支持 向 量 机 学 习 等 价 于 最 小 化 二 阶 范 数 正 则 化 的 合 页 函数 
N 
> [l- y (w.x, +5)] +4 |] wl 
i=l 


3. 非 线性 文 持 回 量 机 


对 于 输入 空间 中 的 非 线性 分 类 问题 ， 可 以 通过 非 线性 变换 将 它 转化 为 
某 个 高 维特 征 空间 中 的 线性 分 类 问题 ， 在 高 维特 征 空 间 中 学 习 线 性 支 
持 向 量 机 。 由 于 在 线性 支持 癌 量 机 学 习 的 对 侦 问 题 里 ,目标 芳 数 和 分 
类 决策 函数 都 只 涉及 实例 与 实例 之 间 的 内 积 ， 所 以 不 需要 显 式 地 指定 
非 线 性 变换 ， 而 是 用 核 落 数 来 蔡 换 当中 的 内 积 。 核 玉 数 表示 ， 通 过 一 
个 非 线 性 转换 后 的 两 个 实例 间 的 内 积 。 具 体 地 ，K(x,z) 是 一 个 核 辑 
数 ， 或 正定 核 ， 意 味 着 存在 一 个 从 输入 空间 x 到 特征 空间 守 A RY 
CO: 七 - 太 ， 对 任意 x,ze 庆 A 


K(x, z) = G(x) .1(z) 


对 称 函 数 K(x,z) 为 正定 核 的 充 要 条 件 如 下 :对 任意 x; eX i= 
J ..,m， 任 意 正 整 数 m， 对 称 函 数 K(x,z) 对 应 的 Gram 和 矩阵 是 半 正 定 


所 以 ， 在 线性 支持 向 量 机 学 习 的 对 伪 问 题 中 ， 用 核 贸 数 K(x,z) 巷 代 内 
积 ， 求 解 得 到 的 束 古 非 线性 支持 癌 量 机 


N 
f(x) =sign | >》 a y,K(x, x)+b 
i=] 


4. SMO 算 法 


SMO 算 法 古文 持 疝 量 机 学 习 的 一 种 快速 算法 ， 其 特点 是 不 断 地 将 原 二 
次 规划 问题 分 解 为 只 有 两 个 变量 的 二 次 规划 子 问题 ， 并 对 子 问题 进行 
解析 求解 ， 直 到 所 有 变量 满足 KKT 条 件 为 止 。 这 样 通过 启发 式 的 方法 
得 到 原 二 次 规划 问题 的 最 优 解 。 因 为 子 问题 有 解析 解 ， 所 以 每 次 计算 
子 问题 都 很 快 ， 虽 然 计算 子 问 题 次 数 很 多 ， 但 在 总 体 上 还 是 高 效 的 。 


继续 阅读 


线性 支持 向 量 机 〈 软 间隔 ) 由 Cortes 与 Vapnik 提 出 证。 同时 ， 
Boser,Guyon 与 Vapnik 义 3 引入 核 技 巧 ， 提 出 非 线 性 支持 疝 量 机 。 
Drucker 等 人 将 其 扩展 到 支持 癌 量 回归 %。Vapnik Vladimir 在 他 的 统计 
学 习 理 论 呈 一 书 中 对 文 持 回 量 机 的 泛 化 能 力 进 行 了 论述 。 

Platt 提 出 了 文 持 向 量 机 的 快速 学 习 算 法 SMO 中 ，Joachims 实 现 的 SVM 
Light， 以 及 Chang 与 Lin 实 现 的 LIBSVM 软 件 包 被 广泛 使 用 。® 

原始 的 支持 向 量 机 是 二 类 分 类 模型 ， 又 被 推广 到 多 类 分 类 支持 疝 量 机 
mm ， 以 及 用 于 结构 预测 的 结构 支持 向 量 机 。 

天 于 文 持 疝 量 机 的 文献 很 多 。 支 持 向 量 机 的 介绍 可 参照 文献 [9 一 12]。 
核 方法 被 认为 是 比 文 持 向 量 机 更 具 一 般 性 的 机 需 学 习 方 法 。 核 方法 的 
介绍 可 参考 文献 [13 一 15] 。 


习题 
1.1 ”比较 感知 机 的 对 伪 形 式 与 线性 可 分 支持 问 量 机 的 对 伪 形 式 。 
1.2 已 知 正 例 点 x1 =(12)7，xv 二 (2,3)"，Xx3 二 (3,3)"， 负 例 点 x 4 = 
(2,1)", x5 = 三 (3,2)7， 试 求 最 大 间隔 分 离 超 平 面 和 分 类 决策 函数 ， 并 在 
图 上 画 出 分 离 超 平面 、 间 隔 边 界 及 支持 问 量 。 
1.3 ”线性 支持 疝 量 机 还 可 以 定义 为 以 下 形式 : 
min sll w| +1CY&? 


s.t. y,(wex,+b) 21-6, i=1,2,--,N 


E>0, i=1,2,-,N 


OREM RET ° 
1.4 WEA A PRAY IE aa RN: 


K (x, Zz) =(x«z)’ 
是 正定 核 男 数 ， 这 里 p 是 正 整 数 ，XZzER"。 
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注释 


[1]. foo 称 为 仿 射 画 数 ， 如 果 它 满足 fo)=axrb，aeR"，beR，xeRn。 


[2] SVM Light: http://svmlight.joachims.org/.LIBSVM: 
http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ° 


第 8 章 ”提升 方法 


提升 (boosting) 方法 是 一 种 常用 的 统计 学 习 方 法 ， 应 用 广泛 且 有 效 。 
在 分 拓 问 题 中 ， 它 通过 改变 训练 样本 的 权重 ， 学 习 多 个 分 类 器 ， 并 将 
这 些 分 类 亏 进 行 线性 组 合 ， 提 高 分 类 的 性 能 。 


本 章 首 和 介绍 提升 方法 的 思路 和 代表 性 的 提升 算法 AdaBoost; 然后 通 
过 训练 误 关 分 析 探 讨 AdaBoost 为 什么 能 够 提高 学 习 精 度 ;， 并 且 从 前 同 


分 步 加 法 模型 的 角度 解释 AdaBoost; 最 后 叙述 提升 方法 更 具体 的 实例 
提升 树 (boosting tree) 。AdaBoost 算 法 是 1995 年 由 Freund 和 
Schapire 提 出 的 ， 提 升 树 是 2000 年 由 Friedman 等 人 提出 的 。 


8.1 提升 方法 AdaBoost 算 法 
8.1.1 提升 方法 的 基本 思路 


提升 方法 基于 这 样 一 种 思想 : 对 于 一 个 复杂 任务 来 说 ， 将 多 个 专家 的 
判断 进行 适当 的 综合 所 得 出 的 判断 ， 要 比 其 中 任何 一 个 专家 单独 的 判 
断 好 。 实 际 上 ， 融 是 “三 个 具 皮 匠 顶 个 诸 饲 亮 ?的 道理 。 


历史 上 ，Kearmns 和 Valiant 首 先 提 出 了 “ 强 可 学 习 (strongly 

learnable) ”和 和“ 弱 可 学 习 (weakly learnable) ”的 概念 。 指 出 : 在 概率 
近似 正确 (probably approximately correct, PAC) 学 习 的 框架 中 ， 一 个 
概念 〈 一 个 类 ) ， 如 果 存 在 一 个 多 项 式 的 学 习 算法 能 够 学 习 它 ， 并 且 
正确 率 很 高 ， 那 么 就 称 这 个 概念 是 强 可 学 习 的 ; 一 个 概念 ， 如 采 存 在 
一 个 多 项 式 的 学 习 算法 能 够 学 习 它 ， 学 习 的 正确 率 仅 比 随 机 猜测 略 
好 ， 那 么 就 称 这 个 概念 是 弱 可 学 习 的 。 非 常 有 趣 的 是 Schapire 后 来 证 明 
强 可 学 习 与 弱 可 学 习 是 等 价 的 ， 也 就 是 说 ， 在 PAC 学 习 的 框架 下 ,一 
个 概念 是 强 可 学 习 的 充分 必要 条 件 是 这 个 概念 是 弱 可 学 习 的 。 


这 样 一 来 ， 问 题 便 成 为 ， 在 学 习 中 ， 如 果 已 经 发 现 了 “ 弱 学 习 算 法 ”， 
那么 能 否 将 它 提 升 (boost) 为 “ 强 学 习 算 法 ”。 大 家 知道 ， 发 现 弱 学 习 
算法 通常 要 比 发 现 强 学 习 算法 容易 得 多 。 那 么 如 何 具 体 实 施 捉 升 ， 便 
成 为 开发 提升 方法 时 所 要 解决 的 问题 。 关 于 提升 方法 的 研究 很 多 ， 有 
ee 。 最 具 代 表 性 的 是 AdaBoost 算 法 (AdaBoost 
algorithm) ° 


对 于 分 类 问题 而 言 ， 给 定 一 个 训练 样本 集 ， 求 比较 粗糙 的 分 类 规则 

GIDRA) 要 比 求 精确 的 分 类 规则 ( 强 分 类 器 ) 容易 得 多 。 提 升 方 
法 就 是 从 弱 学 习 算 法 出 发 ， 反 复学 习 ， 得 到 一 系列 弱 分 类 器 ORA 
基本 分 类 器 ) ， 然 后 组 合 这 些 弱 分 类 器 ， 构 成 一 个 强 分 类 器 。 大 多 数 
的 提升 方法 都 是 改变 训练 数据 的 概率 分 布 (训练 数据 的 权 值 分 布 ) ， 
针对 不 同 的 训练 数据 分 布 调用 弱 学 习 算法 学 习 一 系列 弱 分 类 船 。 


这 样 ， 对 提升 方法 来 襄 ， 有 两 个 问题 需要 回答 ， 一 征 在 每 一 轮 如 何 改 
变 训 练 数据 的 权 值 或 概率 分 布 ， 二 是 如 何 将 弱 分 类 器 组 合成 一 个 强 分 
类 器。 关于 第 1 个 问题 ，AdaBoost 的 做 法 是 ， 提 融 那 些 被 前 一 轮 弱 分 类 
妖 错 误 分 类 样本 的 权 值 ， 而 降低 那些 被 正确 分 类 样本 的 权 值 。 这 样 一 
来 ， 那 些 没 有 得 到 正确 分 类 的 数据 ， 由 于 其 权 值 的 加 大 而 受到 后 一 轮 
的 弱 分 类 大 的 更 大 关注 。 于 是 ， 分 类 问题 被 一 系列 的 弱 分 类 凑 “ 分 而 治 
之 ”。 至 于 第 2 个 问题 ， 即 弱 分 类 器 的 组 合 ，AdaBoost 采 取 加 权 多 数 表 
决 的 方法 。 具 体 地 ， 加 大 分 类 误 产 率 小 的 弱 分 类 融 的 权 值 ， 使 其 在 表 
决 中 起 较 大 的 作用 ， 诚 小 分 类 误 产 率 大 的 弱 分 类 融 的 权 值 ， 使 其 在 表 
决 中 起 较 小 的 作用 。 


AdaBoost 的 巧妙 之 处 殊 在 于 它 将 这 些 想法 目 然 且 有 效 地 实现 在 一 种 算 
EEs 


8.1.2 AdaBoost 算 法 
现在 叙述 AdaBoost 算 法 。 假 设 给 定 一 个 二 类 分 类 的 训练 数据 集 
Dt A A E Po ie eas Pa NF 
其 中 ， 每 个 样本 点 由 实例 与 标记 组 成 。 实 例 x; sxSR"， 标 记 yieyy = 
{-1,+1}，x 是 实例 空间 ，7 是 标记 集合 。AdaBoost 利 用 以 下 算法 ， 从 
训练 数据 中 学 习 一 系列 弱 分 类 器 或 基本 分 类 器 ， 并 将 这 些 弱 分 类 器 线 
性 组 合成 为 一 个 强 分 类 器 。 


算法 8.1 (AdaBoost) 


输入 : 训练 数据 集 T={(x1,，y1),(X2，y2),…,(XN;yN)}， 其 中 xi 
ExCR’, yEy ={-141}; 弱 学 习 算 法 ; 


输出 : 最终 分 类 如 G(x)。 


(1) 初始 化 训练 数据 的 权 值 分 布 


(2) *{M=1,2,...,.m 


(a) 使 用 具有 权 值 分 布 D ,的 训练 数据 集 学 习 ， 得 到 基本 分 类 器 


G (x): X > {-1,+1} 


m 


(b) 计算 G ,, (x) 在 训练 数据 集 上 的 分 类 误差 率 


m 


N 
Em = P(G (x, ) a Yi ) 5 > Wmi I (G, (x, ) 7- Yı ) 
i=] 


(c) 计算 G(x) 的 系数 


a shih ie 
m 2 g e 


这 里 的 对 数 是 目 然 对 数 。 
(d) 更 新 训练 数据 集 的 权 值 分 布 


2 ie (Wasi o's Watt. a Wati N ) 


Wi 


Wi 三 一 exp(—@,, y,G,,(%,)) i=1,2,…,N 


m+ 
m 


ZE, Zn EMPKAF 


N 
Zn = > W ni eXp( 一 C， J; G,, (x; )) 


i=l 
它 使 D ui 成 为 一 个 概率 分 布 。 
(3) 构建 基本 分 类 器 的 线性 组 合 


f(x) =¥.a,G, (x) 


(8.1) 


(8.2) 


(8.3) 


(8.4) 


(8.5) 


(8.6) 


得 到 最 终 分 类 器 


M 
G(x) =sign( f (x)) = sign | > 2,,G,, 09 (8.7) 
m=! 


对 AdaBoost 算 法 作 如 下 说 明 : 


步骤 (1) ”假设 训练 数据 集 具 有 均匀 的 权 值 分 布 ， 即 每 个 训练 样本 在 
基本 分 类 如 的 学 习 中 作用 相同 ， 这 一 假设 保证 第 1 步 能 够 在 原始 数据 上 
学 习 基 本 分 类 硕 G 1 (x) ° 


步骤 (2) AdaBoost 反 复学 习 基 本 分 类 器 ， 在 每 一 轮 m=12,...,M 顺 
次 地 执行 下 列 操作 : 


(a) 使 用 当前 分 布 Da 加 权 的 训练 数据 集 ， 学 习 基 本 分 类 器 Gm (x) 。 
(b) 计算 基本 分 类 器 Gm(o) 在 加 权 训 练 数据 集 上 的 分 类 误差 率 : 


二 (8.8) 


G,, (4) EY 


Bw. Em PATINA, Sw, =1。 这 表明 ，G , (x) 
在 加 权 的 训练 数据 集 上 的 分 类 误差 率 是 被 G(x) 误 分 类 样本 的 权 值 之 
和 ， 由 此 可 以 看 出 数据 权 值 分 布 D ,与 基本 分 类 器 G , (x) 的 分 类 误差 率 
的 关系 。 

(c) 计算 基本 分 类 器 G (x) 的 系数 a n e an 表示 G a (x) 在 最 终 分 类 器 
中 的 重要 性 。 由 式 (8.2) 可 知 ， 当 em < 时 ，am>20， 并 且 a 随 着 em 
的 减 小 而 增 大 ， 所 以 分 类 误差 率 越 小 的 基本 分 类 器 在 最 终 分 类 器 中 的 
作用 越 大 。 


a 更 新 训练 数据 的 权 值 分 布 为 下 一 轮作 准备 。 式 (8.4) 可 以 写 


ze ， GLA)=Y, 
Wanthi = vy 
g ? G, (x;) 天 Yi 
由 此 可 知 ， 被 基本 分 类 器 G(x) 误 分 类 样本 的 权 值 得 以 扩大 ， 而 被 正 
确 分 类 样本 的 权 值 却 得 以 缩小 。 两 相 比 较 ， 交 分 类 样本 的 权 值 被 帮 大 
一 倍 。 因 此 ， 误 分 类 样本 在 下 一 轮 学 习 中 起 更 大 的 作用 。 不 改 
变 所 给 的 训练 数据 ， 而 不 断 改变 训练 数据 权 值 的 分 布 ， 使 得 训练 数据 
在 基本 分 类 器 的 学 习 中 起 不 同 的 作用 ， 这 是 AdaBoost 的 一 个 特点 。 


步骤 (3) ”线性 组 合 f(a 实 现 M 个 基本 分 类 需 的 加 权 表 决 。 系 数 a ， 表 
示 了 基本 分 类 怖 G (x) 的 重要 性 ， 这 里 ， 所 有 a 之 和 并 不 为 1.f(x) 的 符 
号 决定 实例 x 的 类 ，f(x) 的 绝对 值 表示 分 类 的 确信 和 度 。 利 用 基本 分 类 器 
的 线性 组 合 构 建 最 终 分 类 器 是 AdaBoost 的 男 一 特点 。 


8.1.3 ”AdaBoost 的 例子 " 
例 8.1 ”给 定 如 表 8.1 所 示 训 练 数据 。 假 设 弱 分 类 器 由 x<v 或 x>v 产 生 ， 


其 国 值 v 使 该 分 类 铝 在 训练 数据 集 上 分 类 误差 率 最 低 。 试 用 AdaBoost 算 
法 学 习 一 个 强 分 类 能 。 


e?n = 


表 8.1 训练 数据 表 


解 ” 初始 化 数据 权 值 分 布 


D, =(wWWa…Wiio) 
w, =0.1, i=1,2,---,10 


{m=1, 


(a) 在 权 值 分 布 为 D ; 的 训练 数据 上 ， 靖 值 v 取 2.5 时 分 类 误差 率 最 
低 ， 故 基本 分 类 器 为 


= 

(b) G1(x) 在 训练 数据 集 上 的 误差 率 e | =P(G (xi)zyi)=0.3。 
(c) 计算 G COMI AB: wa=ilog 4 =0.036 。 

(d) 更 新 训练 数据 的 权 值 分 布 : 


D, = (Waist, Wiss Wio) 
W, = = expla, mG (xz))，i=12,…,10 
l 
D, = (0.07143, 0.07143, 0.07143, 0.07143, 0.07143, 0.07143, 
0.16667,0.16667, 0.16667,0.07143) 

f(x) = 0.4236G, (x) 
oy Rersion(f 1 (x)] 在 训练 数据 集 上 有 3 个 误 分 类 点 。 
对 m=2， 


(a) 在 权 值 分 布 为 D 的 训练 数据 上 ， 闽 值 v 是 8.5 时 分 类 误差 率 最 
低 ， 基 本 分 类 器 为 


cm- x<8.5 

2 uL x>85 
(b) G (x) 在 训练 数据 集 上 的 误差 率 e , = 0.2143 ° 
(c) 计算 a, =0.6496 ° 


(d) 更 新 训练 数据 权 值 分 布 : 


D, = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.1667, 
0.1060, 0.1060, 0.1060, 0.0455) 
f, (x) = 0.4236G, (x) + 0.6496G, (x) 


分 类 器 sign[f , (x)] 在 训练 数据 集 上 有 3 个 误 分 类 点 。 
对 m=3， 


(a) 在 权 值 分 布 为 D 3 的 训练 数据 上 ， 闽 值 v 是 5.5 时 分 类 误差 率 最 
低 ， 基 本 分 类 凑 为 


G.(x) = fl, x>35 
a el ge 


(b) G; (Oo 在 训练 样本 集 上 的 误差 率 e3 =0.1820 ° 
(c) 计算 as =0.7514 ° 
(d) 更 新 训练 数据 的 权 值 分 布 : 
D 4 =(0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125) 
于 是 得 到 : 
f,(x) = 0.4236G (x) + 0.6496G, (x) + 0.7514G, (x) 
分 类 器 sign[f3 ( 切 ] 在 训练 数据 集 上 误 分 类 点 个 数 为 0。 
于 是 最 终 分 类 器 为 
G(x) = sign{ f,(x)] = sign[0.4236G (x) + 0.6496G, (x) + 0.7514G, (x)] a 
8.2 ”AdaBoost 算 法 的 训练 误差 分 析 


AdaBoost 最 基本 的 性 质 是 它 能 在 学 习 过 程 中 不 断 减 少 训练 误 过 ， 即 在 
训练 数据 集 上 的 分 类 误 关 率 。 关 于 这 个 问题 有 下 面 的 定理 : 


定理 8.1 (AdaBoost 的 训练 误差 界 ) ”AdaBoost 算 法 最 终 分 类 器 的 训 


练 误 差 界 为 
X l 
a I(G(x,)# y) <— > exp(-y,f(x;)) = [ [Zn (8.9) 
N i=l N i m 


ik G(x), f(x) FIZ, PHATE (8.7) 、 式 (8.6) 和 式 (8.5) 给 出 。 


证 明 当 GGxi)zyi 时 ，yif(xi)<0， 因 而 exp(-yif(xi))>1。 由 此 直接 推 
导出 前 半 部 分 。 
后 半 部 分 的 推导 要 用 到 Z ， 的 定义 式 (8.5) 及 式 (8.4) 的 变形 : 


Wmi EXPO m VG, (X;)) = Zp W 


J 
mi~ m m 'm+l,i 


现 推 性 如 下 : 
exp(—y,f (x)) 
M 
一 一 K > exp( 之 Qn yi G (x, ) 
i m=} 


= 2 Wi Il exp(—@,, YO, (X; )) 


mæl 


=2 Wy Il exp(—a,, VG, (x, )) 


M 
Z, Z, > W; I] exp( Qn) Gn (x, )) 


= ZZ Zu p2 Www EXP(—Ayy YG (X; )) 


这 一 定理 说 明 ， 可 以 在 每 一 轮 选取 适当 的 Gm 使 得 Zm 最 小 ， 从 而 使 训 
练 误差 下 降 最 快 。 对 二 类 分 类 问题 ， 有 如 下 结果 : 


定理 8.2 (二 类 分 类 问题 AdaBoost 的 训练 误差 界 ) 
M M M M 
1 12, =| [2Ve, ll—e,)]=T [y0 -47n ) < op| -20 7, (8.10) 


yo ] 
这 里 ， Yum tal 


证 明 由 Z 的 定义 式 (8.5) 及 式 (8.8) 得 


N 
Zn = 》W €XP(—A,, ¥;G, (%;)) 
i=] 


一 Cn a9 «gilt 
> i Wai’ + > Wil 


Yi =G, (x, ) Yi 4G, ( Xi ) 


— R: “An Qm 
= (l En Je ji Ene 


=2Ve,(l-e,)=V1-4y,. (8.11) 


至 于 不 等 式 


M M 
I] V(l-4y,,°) S exp( 23.70 | 


m=1 m=] 


2s Ae 由 e* 和 Vi-x 在 点 x=0 的 泰勒 展开 式 推 出 不 等 式 W-4 JseC2rx.) 进 
得 到 。 


推论 8.1 ”如 果 存 在 Y >0， 对 所 有 m 有 7Y ，>Y ， 则 


LECO)» y,) <exp(-2M y’) (8.12) 


这 表明 在 此 条 件 下 AdaBoost 的 训练 误差 是 以 指数 速率 下 降 的 。 这 一 性 
质 当然 是 很 有 吸引 力 的 。 


注意 ，AdaBoost 算 法 不 需要 知道 下 界 .。 这 正 是 Freund 与 Schapire 设 计 
AdaBoost 时 所 考虑 的 。 与 一 些 早期 的 提升 方法 不 同 ，AdaBoost 具 有 迁 
应 性 ， 即 它 能 适应 弱 分 类 器 各 自 的 训练 误差 率 。 这 也 是 它 的 名 称 GE 
应 的 提升 ) 的 由 来 ， Ada 是 Adaptive 的 简写 ° 


8.3 AdaBoost 算 法 的 解释 


AdaBoost 算 法 还 有 另 一 个 解释 ， 即 可 以 认为 AdaBoost 算 法 是 模型 为 加 
法 模型、 搞 拓 机 数 为 指数 古 数 、 学 习 算法 为 前 向 分 步 算法 时 的 二 类 分 
类 学 习 方法 。 


8.3.1 前 向 分 步 算法 


考虑 加 法 模型 (additive model) 
M 
f(x) => B, byn) (8.13) 
m=! 


EH bay DEKR, YARRA, 8B, ARMA 

数 。 显 然 ， 式 (8.6) 是 一 个 加 法 模型 。 

在 给 定 训练 数据 及 损失 函数 L(Y,f(X)) 的 条 件 下 ， 学 习 加 法 模型 f(x) 成 为 
经 验 风 险 极 小 化 即 损失 函数 极 小 化 问题 : 


N M 
i Eip b(x.: 8.14 
mart 区 > B,D; ya) (8.14) 


m=| 


通常 这 是 一 个 复杂 的 优化 问题 。 前 向 分 步 算 法 (forward stagewise 
algorithm ) 求解 这 一 优化 问题 的 想法 是: 因为 学 习 的 是 加 法 模型 ， 如 
果 能 够 从 前 向 后 ， 步 只 学 习 一 个 基 函 数 及 其 系数 ， 逐 步 通 近 优化 
目标 函数 式 (8.14) ， 那么 就 可 以 简化 优化 的 复杂 度 。 具 体 地 ， 每 步 
只 需 优化 如 下 损失 画 数 : 


min L(y, pbx: y)) (8.15) 


给 定 训 练 数据 集 T={(x1，y1i)G2，y2)(XNYN)}xisxSR" yisD7 
={-1+1}。 损 失 函 数 LCYfCX)) 和 基 画 数 的 集合 {b(x;Y )}， 学 习 加 法 模 
型 fx) 的 前 向 分 步 算法 如 下 : 


算法 8.2 (前 向 分 步 算法 ) 


WA: 训练 数据 集 T={(x] ，y1),(X2，y2),.…,(XNyYN)}; 损失 函数 
L(Y,f(X)); EKRAR; )}; 


输出 : 加 法 模型 foxz)。 
(1) 初始 化 fo(x)=0 
(2) 对 m=1,2,...,M 


(a) 极 小 化 损失 函数 


y 
(By ) = arg min ŽI ENA (x; ) + Bb(x,;7)) (8.16) 
Y i=l 


得 到 参数 pm Ym 


(b) 更 新 


f(x) = f(x) + B,b07,,) (8.17) 
(3) 得 到 加 法 模型 
VW 
f()=fu@) => Pb) (8.18) 
m=) 
u 


这 样 ， 前 向 分 步 算 法 将 同时 求解 从 mm= 1 到 M 所 有 参数 pu YX 的 优化 
问题 和 商人 化 为 逐次 求解 各 个 pm ，Y nm 的 优化 问题 。 


8.3.2 ”前 问 分 步 算 法 与 AdaBoost 


由 前 向 分 步 算法 可 以 推导 出 AdaBoost， 用 定理 叙述 这 一 关系 。 


定理 8.3 ”AdaBoost 算 法 是 前 向 分 步 加 法 算法 的 特例 。 这 时 ， 模 型 是 由 
基本 分 类 需 组 成 的 加 法 模型 ， 损 失 函 数 是 指数 函数 。 


证 明 ”前 向 分 步 算 法 学 习 的 古 加 法 模型 ， 当 基 瑟 数 为 基本 分 类 铝 时 ， 
该 加 法 模型 等 价 于 AdaBoost 的 最 终 分 类 器 


M 
{@)=) @.G.@) (8.19) 


由 基本 分 类 器 G(x) 及 其 系数 a ZAG, m=1,2,....M ° Baa RE 
逐一 学 习 基 辑 数 ， 这 一 过 程 与 AdaBoost 算 法 逐一 学 习 基 本 分 类 器 的 过 
程 一 致 。 下 面 证 明 前 癌 分 步 算 法 的 损失 画 数 是 指数 损失 函数 


(exponential loss function) 
L(y, f (x)) = exp[—yf (x)] 
时 ， 其 学 习 的 具体 操作 等 价 于 AdaBoost 算 法 学 习 的 具体 操作 。 


假设 经 过 m-1 轮 和 欠 代 前 癌 分 步 算 法 已 经 得 到 fl O): 


天 (x) = fa a(x) F a, Om (x) 
=Q G, (x)+ + apC, (x) 


在 第 m 轮 迭代 得 到 a，，G (CO 和 f a) 。 
(x) 一 Son l (x) t @,,G,, (x) 
目标 是 使 前 向 分 步 算法 得 到 的 am 和 G a OE (TE VIR SET LAY 
指数 损失 最 小 ， 即 
(Q,,G, (x)) = arg min > exp[-y, (fx) + @G(x,; ))] (8.20) 


式 (8.20) 可 以 表示 为 


m m 


(a ,G (x)) =argmin Ym, exp[—y,a@G(x, )] (8.21) 
CC i=l 
EHR, w,, 三 exp[-y ;fm (X;)]。 因 为 Ww, 既 不 依赖 也 不 依赖 于 G， 所 以 
与 最 小 化 无 关 。 但 w, 依赖 于 f ，; (x)， 随 着 每 一 轮 迭 代 而 发 生 改变 。 


现 证 使 式 (8.21) 达到 最 小 的 a* MG 就 是 AdaBoost 算 法 所 得 到 的 a 。 
和 G(x)。 求 解 式 (8.21) 可 分 两 步 : 


首先 ， 求 G"。 对 任意 a>0， 使 式 (8.21) 最 小 的 G(x) 由 下 式 得 到 


N 
G; (x) = arg min > wI; # G(x,)) 


i=] 
EH, Wwy =expl-yifmi(xi)]° 


此 分 类 器 G* BU AdaBoost EA AEA RAG (Xx)， 因 为 它 是 使 第 m 
轮 加 权 训 练 数据 分 类 误差 率 最 小 的 基本 分 类 器 。 


之 后 ， 求 w" 。 参 照 式 (8.11) ， 式 (8.21) 中 


n 
> w,, exp[—v,a@G(x, )] 
i=] 


= FT a YT a 
= J we + >. We 


y, =G,, (x) y, #G,,(%)) 


N N 
=(e 一 e >> Ww 1(y, # G(x,))+e"% > W, (8.22) 
i=] i=l 


将 已 求 得 的 G* (x) 代 入 式 (8.22) ， 对 a 求 导 并 使 导数 为 0， 即 得 到 使 式 
(8.21) 最 小 的 a。 


Em a = > W ni I(y, a G,, (x; )) 


i=l 


ll m= 
_ 
= 
= 


这 里 的 a 与 AdaBoost 算 法 第 2(@O 步 的 av 完全 一 致 。 
最 后 来 看 每 一 轮 样 本 权 值 的 更 新 。 由 
fa) = Fm (X) + 0, G, (x) 


以 及 Ww,; 二 exp[-yif m1 (Xi)]， 可 得 


WwW ,=w, ,exp[—y.Q,G, (x)] 


mėl,i m,i i mm 


这 与 AdaBoost 算 法 第 2(d) 步 的 样本 权 值 的 更 新 ， 只 相差 规范 化 因子 ， 


因而 等 价 。 
8.4 提升 树 


提升 树 是 以 分 类 树 或 回归 树 为 基本 分 类 需 的 提升 方法 。 提 升 树 被 认为 
征 统计 学 习 中 性 能 最 好 的 方法 之 一 。 


8.4.1 ”提升 树 模 型 


a 数 的 线性 组 合 ) 与 前 向 分 步 算 

”以 决策 树 为 基 男 数 的 提升 方法 称 为 提升 树 (boosting tree) 。 对 分 
SEGURA OLA SAE 对 回归 问题 决策 树 是 二 又 回归 树 。 在 例 
8.1 中 看 到 的 基本 分 类 器 xX<vVv 或 x>v， 可 以 看 作 是 由 一 个 根 结 点 直接 连接 
两 个 叶 结 点 的 简单 决策 树 ， 即 所 谓 的 决策 树桩 (decision stump) ° fè 
升 树 模型 可 以 表示 为 决策 树 的 加 法 模型 : 


fu) =Y7;0,,) (8.23) 


m=1 


其 中 ，TGC5s@m) 表 示 决 策 树 ;，@nm 为 决策 树 的 参数 ，M 为 树 的 个 数 。 


8.4.2 ”提升 树 算法 


提升 树 算法 采用 前 向 分 步 算法 。 甫 先 确 定 初 始 提 升 树 f0(x)= 二 0， 第 m 步 
的 模型 是 


f,, (x) = f(x) +T(39,,) (8.24) 
HP, faa (xX) 为 当前 模型 ， 通 过 经 验 风险 极 小 化 确定 下 一 棵 决策 树 的 


参数 m> 


N 
©, E g min 2, L(y, Sn (x, ) + T(x, ;©. )) (8.25) 


由 于 树 的 线性 组 合 可 以 很 好 地 拟 合 训练 数据 ， 即 使 数据 中 的 输入 与 输 
人 
法 。 


下 面 讨论 针 对 不 同 问题 的 提升 树 学 习 算法 ， 其 主要 区 别 在 于 使 用 的 损 
失 画 数 不 同 。 包 括 用 平方 误 茎 损 失 画 数 的 回归 问题 ， 用 指数 损失 函数 
的 分 类 问题 ， 以 及 用 一 般 损 失 函 数 的 一 般 决 策 问题 。 


对 于 二 类 分 类 问题 ， 提 升 树 算法 只 需 将 AdaBoost 算 法 8.1 中 的 基本 分 类 
右 限 制 为 二 类 分 类 树 即 可 ， 可 以 说 这 时 的 提升 树 算 法 是 AdaBoost 算 法 
的 特殊 情况 ， 这 里 不 再 细 述 。 下 面 客 述 回 归 问 题 的 提升 树 。 


已 知 一 个 训练 数据 集 T={(x 1, y1),(X2;y2)) ENYN) X EXER" 
，x 为 输入 空间 ，yi EY ER, Y 为 输出 空间 。 在 5.5 节 中 已 经 讨论 了 回 
归 树 的 问题 。 如 果 将 输入 空间 x 划分 为 J 个 互 不 相交 的 区 域 R 1,R >,…,R 
1， 并 且 在 每 个 区 域 上 确定 输出 的 常量 cj ， 那 么 树 可 表示 为 


T(x;©)= Yc I(xeR,) (8.26) 


Et, BRO={(R1,C1)(Ro,C2))---(R PONER AY KI 
区 域 上 的 常数 。J 是 回归 树 的 复杂 度 即 时 结 点 个 数 。 


回归 问题 提升 树 使 用 以 下 前 向 分 步 算 法 : 


fo(x)=0 
Ían) = i (x) 3 Tix ©. ki m= I 2, s -M 


M 
fu) = lL TOn) 


m=! 
在 前 问 分 步 算法 的 第 m 步 ， 给 定 当 前 模型 f(x)， 需 求解 


~ 


QO, =arg min on L(y,, f.,(%) +T(%,;9,.)) 
m ful 

得 到 6 ” ， 即 第 m 棵 树 的 参数 。 

当 采 用 平方 误差 损失 函数 时 ， 

L(y, f =- f(x) 


其 损失 变 为 
L(y, > (x) T T(x; 0, )) 
=[y- fn 0) -T(x;0, ) 
= [r xS T(x; o; Ni 
这 里 
r=y— fra) (8.27) 


是 当前 模型 拟 合 数据 的 残 差 (residual) 。 所 以 ， 对 回归 问题 的 提升 树 
算法 来 说 ， 只 知人 简单 地 拟 合 当 前 模型 的 残 靶 。 这 样 ， 算 法 是 相当 信 单 
的 。 现 将 回归 问题 的 提升 树 算 法 叙述 如 下 。 


算法 8.3 (回归 问题 的 提升 树 算法 ) 


输入 : 训练 数据 集 T= {(x 1, yY1)(X2s7 0)... (XNSY N)}, X EXER", y 


输出 : 提升 树 f Vy (x) © 
(1) 初始 化 f0 (x)=0 
(2) 对 m=1,2,...,M 
(a) 按 式 (8.27) 计算 残 差 
ry =» — f(x); i=1,2,.…,N 


(b) MERETI m 学习 一 个 回归 树 ， 得 到 T(x ;9 ) 


(c) 更 新 fi (&) =f mi CHT ;© m) 
(3) 得 到 回归 问题 提升 树 


M 
fyu@=)>7;9,) 四 


m=] 


例 8.2 ”已 知 如 表 8.2 所 示 的 训练 数据 ，x 的 取 值 范 围 为 区 间 [0.5,10.5]， 
y 的 取 值 范围 为 区 间 [5.0,10.0]， 学 习 这 个 回归 问题 的 提升 树 模 型 ， 考 虑 
只 用 树桩 作为 基 画 数 。 


表 8.2 ”训练 数据 表 


x | 2 3 4 5 6 7 8 9 10 
y, 5.56 5.70 591 640 680 7.05 890 870 900 9.05 


EO 按照 算法 8.3， 第 1 步 求 f; (9 即 回归 树 T; (x) 。 
首先 通过 以 下 优化 问题 : 


min| min > (y,-¢,) +min > (Yi, J 
s [i Cs 


! xeh ~ gek 


求解 训练 数据 的 切 分 点 s: 


R,={x|x<s}, R,={x|x>s} 


容易 求 得 在 Ri ，R :内 部 使 乎 方 损失 误差 达到 最 小 值 的 c; ，c > 为 


ZEN], NÆR, ，R， 的 样本 点 数 。 

求 训 练 数 据 的 切 分 点 。 根 据 所 给 数据 ， 考 虑 如 下 切 分 点 : 
1.5，2.5，3.5，4.5，5.5，6.5，7.5，8.5，9.5 

对 各 切 分 点 ， 不 难 求 出 相应 的 R1，R，，c1，c> 及 


m(s) = min >, (y; -¢,)° +min >; (y,-¢,) 


5 
| x eR, ~” x ER, 


例如 ， 当 s=1.5 时 , R,={1}, R, ={2,3,...,10}, c4 =5.56, cC» = 
7.50, 


m(s)=min 》 (y, -0) +min 》 (y, -c,) =0+15.72 =15.72 


现 将 s 及 m(s) 的 计算 结果 列表 如 下 ( 见 表 8.3) 。 
328.3 ”计算 数据 表 


S 1.5 2.5 3.5 4.5 Jas 6.5 £5 8.5 9.5 
m(s) 15.72 12.07 8.36 5.78 3.9] 1.93 8.01 11.73 15.74 


由 表 8.3 可 知 ， 当 s= 6.5 时 m(s) 达 到 最 小 值 ， 此 时 Ri = {1,2,...,6}, Ro 
= {7,8,9,10}，ci =6.24, c» =8.91， 所 以 回归 树 Ti; (x) 为 


6.24, tos 
T (x)= fe 

8.91, x=6.5 
f(x) = 了 TCD 


用 f 1 (x) 拟 合 训练 数据 的 残 差 见 表 8.4， 表 中 rz =yi-fi i) i= 
1,2,...,10 ° 


R84 REK 
x 2 3 4 5 6 7 8 9 10 
r, -0.68 -0.54 -033 0.16 0.56 O81 -001 -0.21 0.09 0.14 


用 f; (x) 拟 合 训 练 数据 的 平方 损失 误差 : 
10 
L(y, A) = 104, — f(x)) =1.93 
第 2 步 求 T(x)。 方 法 与 求 T1(x) 一 样 ， 只 是 拟 合 的 数据 是 表 8.4 的 残 
差 。 可 以 得 到 | 


T(x) —0.52, x<3.5 
ob 
i 0.22, x235 


Sila SAD 
646, 35=5x<6.5 
Ris, wees 


f(x) = fi (x) + T(x) = 


HE QE VIRB E RR AE 


10 
Ly, f(x) = O; - A) =0.79 


i=] 


继续 求 得 


A 9 x<6.5 L(y, f(x)) =0.47, 


022 x26.5 
016 2245 
EA =a . E aa a = 0.30, 
a(x) (0.11,  x=4.5 J) 
0.07, x<65 
F- X) 一 j L AA s x = (0.23 , 
s(x) or TT. PJs) 


—0.15, 3 
T(x) = ~ 
0.04, hs 


F(X) = fs (x) + 15%) = T(x) + +++ + T(x) + T(x) 
5.63, x<2.5 
5.82, 255 2<3:5 
=16.56, 3.5<x<4.5 
6.83, 45<x<6.5 
8.95, x 26.5 


用 f 6 (9 拟 合 训练 数据 的 平方 损失 误 关 是 


10 


L(y, SE) = 001 - £6)" =0.17 


假设 此 时 已 满足 误差 要 求 ， 那 么 f(x)=f6(x) 即 为 所 求 提升 树 。 


8.4.3 ”梯度 提升 


提升 树 利用 加 法 模型 与 前 向 分 步 算 法 实现 学 习 的 优化 过 程 。 当 损失 画 
数 是 平方 损失 和 指数 损失 函数 时 ， 每 一 步 优化 是 很 简单 的 。 但 对 一 般 
损失 函数 而 言 ， 往 往 每 一 步 优 化 并 不 那么 容易 。 针 对 这 一 问题 ， 
Freidman 提 出 了 梯度 提升 (gradient boosting) 算法 。 这 是 利用 最 速 下 
降 法 的 近似 方法 ， 其 关键 是 利用 损失 函数 的 负 梯 度 在 当前 模型 的 值 


Of (Xx) (x)= fm- (4) 


R TEL VATA ape Tr RA ee IT el, TS SBA 。 
算法 8.4 〈 梯 度 提升 算法 ) 


输入 : 训练 数据 集 T={(x1,， y1),(X2;72),…,(XNsyN)}, XiEXSER", y 
LEY SR; 损失 函数 L(Y,f(X)); 


输出 : EAR P’ (x) ° 
(1) 初始 化 


N 
f,(x) =argmin >_ L(y,,c) 
isl 


(2) 对 m=1,2,...,M 


(a) 对 i==1,2,...,N， 计 算 


mi Of (x, ) f(x)= fy OD) 


(b) 对 ri 拟 合 一 个 回归 树 ， 得 到 第 m 棵 树 的 叶 结 点 区 域 R j= 
| 


6 三 工 2 A. 


Cy, = arg min >. L(y, f,-.(%) +0) 
x ER, 


(d) ERLO a) +E cyl ER) 


(3) 得 到 回归 树 


a M.S 
f(x) = fu (x) = >D i I(xeER,,) n 


m=i j=1 


算法 第 1 步 初始 化 ， 售 计 使 损失 函数 极 小 化 的 常数 值 ， 它 是 只 有 一 个 根 
结 点 的 树 。 第 2(a) 步 计算 损失 函数 的 人 负 梯 度 在 当前 模型 的 值 ， 将 它 作 
为 残 差 的 估计 。 对 于 平方 损失 函数 ， 它 束 是 通常 所 说 的 残 差 ， 对 于 一 
骸 损 失 画 数 ， 它 束 是 残 差 的 近似 值 。 第 2(b) 步 估计 回归 树叶 结 点 区 

域 ， 以 拟 合 残 差 的 近似 值 。 第 2(c) 步 利用 线性 搜索 估计 时 结 点 区 域 的 
值 ， 使 损失 函数 极 小 化 。 第 2(d) 步 更 新 回归 树 。 第 3 步 得 到 输出 的 最 终 


ERA F (X) ° 
本 章 概要 


1. 提升 方法 是 将 弱 学 习 算 法 提升 为 强 学 习 算 法 的 统计 学 习 方 法 。 在 分 
类 学 习 中 ， 提 升 方法 通过 反复 修改 训练 数据 的 权 值 分 布 ， 构 建 一 系列 
基本 分 类 器 〈 弱 分 类 器 ) ， 并 将 这 些 基 本 分 类 器 线性 组 合 ， 构 成 一 个 
强 分 类 器 。 代 表 性 的 提升 方法 是 AdaBoost 算 法 。 


AdaBoost 模 型 是 弱 分 类 器 的 线性 组 合 : 


M 
f(x) = > 
m=! 


2. AdaBoost R AMIT ie 1H Ie (VEER >) — TEAR ST RA o BIE 
代 中 ， 提 高 那些 被 前 一 轮 分 类 器 错误 分 类 数据 的 权 值 ， 而 降低 那些 被 
正确 分 类 的 数据 的 权 值 。 最 后 ，AdaBoost 将 基本 分 类 器 的 线性 组 合作 
为 强 分 类 器 ， 其 中 给 分 类 误差 率 小 的 基本 分 类 器 以 大 的 权 值 ， 给 分 类 
误 莽 率 大 的 基本 分 类 絮 以 小 的 权 值 。 


3. AdaBoost 的 训练 误差 分 析 表 明 ，AdaBoost 的 每 次 迭代 可 以 减少 它 在 
训练 数据 集 上 的 分 类 误差 率 ， 这 说 明了 它 作 为 提升 方 法 的 有 效 性 。 

4. AdaBoost 算 法 的 一 个 解释 是 该 算法 实际 是 前 问 分 步 算 法 的 一 个 实 

现 。 在 这 个 方法 里 ， 模 型 是 加 法 模型 ， 损 失 函 数 是 指数 损失 ， 算 法 是 
前 问 分 步 算 法 。 


每 一 步 中 极 小 化 损失 函数 


N 
(nala ) =] arg min $, L(V; Sa iQ ) T Bb(x,;7)) 
te] 


得 到 参数 pu，Mm。 


5. 提升 树 古 以 分 类 树 或 回归 树 为 基本 分 类 器 的 提升 方法 。 提 升 树 被 认 
为 是 统计 学 习 中 最 有 效 的 方法 之 一 。 


继续 阅读 


提升 方法 的 介绍 可 参见 文献 [1,2]。PAC 学 习 可 参见 文献 [3]。 强 可 学 习 
与 弱 可 学 习 的 关系 可 参见 文献 [4]。 关 于 AdaBoost 的 最 初 论文 是 文献 
[5]。 关于 AdaBoost 的 前 辣 分 步 加 法 模型 解释 参见 文献 [6]， 提 升 树 与 梯 
度 提升 可 参见 文献 [6,7]。AdaBoost 只 是 用 于 二 类 分 类 ，Schapire 与 
Singer 将 它 扩 展 到 多 类 分 类 问题 。AdaBoost 与 逻辑 斯 诵 回归 的 关系 也 
有 相关 研究 %。 


习题 


8.1 某 公司 招 聘 职 员 考 查 喘 体 、 业 务 能 力 、 发 展 潜 力 这 3 项 。 身 体 分 
为 合格 1、 不 合格 0 两 级 ， 业 务 能 力 和 发 展 潜力 分 为 上 1、 中 2、 下 3 三 
级 。 分 类 为 合格 1、 不 合格 -1 两 类 。 已 知 10 个 人 的 数据 ， 如 下 表 所 示 。 
假设 弱 分 类 器 为 决策 树桩 。 试 用 AdaBoost 算 法 学 习 一 个 强 分 类 器 。 


应 聘 人 员 情 况 数据 表 
| 2 3 4 5 6 7 8 9 10 
Ly 0 0 | | | 0 | | 1 0 
业务 | 3 2 I 2 | | 1 3 2 
潜力 3 | 2 3 3 2 2 | | | 
分 类 | I | | l | | | | | 


比较 支持 向 量 机 、AdaBoost、 人 逻辑 斯 训 回 归 模 型 的 学 习 策 略 与 算 
y o 
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注释 


[1]。 例题 来 源 于 http://wwwi.csie.edu.tw。 


第 9 章 EM 算法 及 其 推广 


EM 算法 是 一 种 迭代 算法 ，1977 年 由 Dempster 等 人 总 结 提 出 ， 用 于 含有 
隐 变 量 (hidden variable) 的 概率 模型 参数 的 极 大 似 然 估计 ， 或 极 大 后 
验 概率 估计 。EM 算 法 的 每 次 迭代 由 两 步 组 成 E 步 ， 求 期 望 
(expectation) ; M 步 ， 求 极 大 (maximization) 。 所 以 这 一 算法 称 关 
期 望 极 大 算法 (expectation maximization algorithm) ， 简 称 EM 算 法 。 
本 章 首先 叙述 EM 算法 ， 然 后 讨论 EM 算法 的 收敛 性 ;， 作 为 EM 算法 的 应 
用 ， 介绍 高 斯 混合 模型 的 学 习 ; 最 后 叙述 EM 算法 的 推广 一 -GEM 算 
法 。 


9.1 EM 算法 的 引入 


概率 模型 有 时 既 含 有 观测 变量 (observable variable) ， 又 含有 隐 变 量 或 
潜在 变量 (latent variable) 。 如 果 概 率 模 型 的 变量 都 是 观测 变量 ， 那 么 
给 定数 据 ， 可 以 直接 用 极 大 似 然 估计 法 ， 或 贝 叶 斯 估计 法 估计 模型 参 
数 。 但 是 ， 当 模型 舍 有 隐 变 量 时 ， 就 不 能 简单 地 使 用 这 些 估 计 方 法 。 
EM 算法 就 是 含有 隐 变 量 的 概率 模型 参数 的 极 大 似 然 估计 法 ， 或 极 大 后 
is 噬 率 估计 法 。 我 们 仅 讨 论 极 大 似 然 估 计 ， 极 大 后 验 概 率 估计 与 其 类 
以 。 


9.1.1 EM 算法 
首先 介绍 一 个 使 用 EM 算法 的 例子 。 


例 9.1 (三 硬币 模型 ， ”假设 有 3 枚 硬币 ， 分 别 记 作 A，B，C。 这 些 硬 
币 正 面 出 现 的 概率 分 别 是 元 ，p 和 q。 进 行 如 下 掷 硬币 试验 : SERRE 
A， 根 据 其 结果 选 出 硬币 B 或 硬币 C， 正 面 选 硬币 B， 反 面 选 硬币 C; A 
后 撕 选 出 的 人 硬币， 据 便 币 的 结果 ， 出 现 正面 记 作 1， 出 现 反 面 记 作 0; 
独立 地 重复 n 次 试验 〈 这 里 ，n=10) ， 观 测 结 果 如 下 : 


1,1,0,1,0,0,1,0,1,1 


假设 只 能 观测 到 撕 硬 币 的 结 采 ， 不 能 观测 据 硬 币 的 过 程 。 问 如 何 佑 计 
三 硬币 正面 出 现 的 概率 ， 即 三 硬币 模型 的 参数 。 


解 ” 三 硬币 模型 可 以 写作 
P(y|0)= > P(y,z| 0) = 2_P(z|0)P(y|z,0) 
=p’ (1- p) +(1-)q’ (l-q)'” (9.1) 
这 里 ， 随 机 变量 y 是 观测 变量 ， 表 示 一 次 试验 观测 的 结果 是 1 或 0; 随机 
变量 z 是 隐 变 量 ， 人 HR; @ =p. QER 
MIB o KRALL LEA BOR oo TER, pEr 次 量 y 的 数据 可 
以 观测 ， 随 机 变量 z 的 数据 不 可 观测 。 


将 观测 数据 表示 为 Y=(Y1，Y，….,Yna)7， 未 观测 数据 表示 为 Z=(Z1 
Zapin a MIZE DRTE TE 


PY |0)= > P(Z| O)P(Y | Z,0) (9.2) 
Z 
即 
P(Y|0)=[]lzp" 0- p) 4 4+(1—2)q” (1-4) ”] (9.3) 
j=l 


考虑 求 模型 参数 O = (MT ,p,q) 的 极 大 似 然 估 计 ， 即 

ĝ= arg max log P(Y |0) (9.4) 
LAAMA, RAIA TRA TIES e EME AY LAA 
于 求解 这 个 问题 的 一 种 迭代 算法 。 下 面 给 出 针对 以 上 问题 的 EM 算法 ， 
其 推导 过 程 省 略 。 
EM 算法 首 移 选 取 参 数 的 初 值 ， 记 作 O@o =(7°.p®.q°), Aisa ha 
的 步骤 闪 代 计算 参数 的 估计 值 ， 直 至 收敛 为 止 。 第 次 选 代 参 数 的 估计 
EKG =(7T °,p’.g°) ° EMR IEN Bit VGA FCA PF ° 


EX: 计算 在 模型 参数 率 "，p"，q" 下 观测 数据 yj 来 目 丘 硬币 B 的 概率 


cen OO" yd)” 


A 四 y (i)\!-y, (i) ()\) (i)\!-y, 
2 (py A- poy” +d -2 yg?) A-4”) 
ME: 计算 模型 参数 的 新 估计 值 
iit) i ty a (9.6) 
na 


n 
(i+1) ,, 
DH yj 


pen = j=l (9.7) 


2 0-4; 
ge” 二 j=l (9.8) 


S (l-ue) 
j=l 
进行 数字 计算 。 假 设 模型 参数 的 初 值 取 为 
z” =0.5, p=05, q” =0.5 
由 式 (9.5) ， 对 yj =1 与 yj 二 0 均 有 所 =0.5 ° 
利用 迭代 公式 (9.6) ~ (9.8) ， 得 到 
gg, dd 
Hz (9.5) , 


DERAN, FB 


(9.5) 


于 是 得 到 模型 参数 @ 的 极 大 似 然 估计 : 

*#=0.5, p=0.6, g=0.6 
TT =0.5 表 示人 硬币 A 是 均匀 的 ， 这 一 结果 容易 理解 。 
WREJT © =0.4, p° =0.6, q9 二 0.7， 那 么 得 到 的 模型 参数 的 极 
大 似 然 估计 是 大 =0.4064, P =0.5368, ĝ 二 0.6432。 这 就 是 说 ，EM 算 
法 与 初 值 的 选择 有 关 ， 选 择 不 同 的 初 值 可 能 得 到 不 同 的 参数 估计 值 。 
一 般 地 ， 用 Y 表 示 观 测 随机 变量 的 数据 ，Z 表 示 隐 随机 变量 的 数据 。Y 
和 Z 连 在 一 起 称 为 完全 数据 (complete-data) ， 观 测 数据 Y 又 称 为 不 完 
全 数据 (incomplete-data) 。 假 设 给 定 观测 数据 Y， 其 概率 分 布 是 PC(YIO 
) He 是 需要 估计 的 模型 参数 ， 那 么 不 完全 数据 Y 的 似 然 画 数 是 P(Y| 
B8)， 对 数 似 然 画 数 L(O )=logP(YIB); 假设 Y 和 Z 的 联合 概率 分 布 是 
P(Y，ZIB)， 那 么 完全 数据 的 对 数 似 然 函 数 是 logP(Y，ZIB)。 


EM 算法 通过 迭代 求 L(B)=1logP(YIB) 的 极 大 似 然 估 计 。 每 次 欠 代 包含 
两 步 : E 步 ， 求 期 望 ，M 步 ， 求 极 大 化 。 下 面 来 介绍 EM 算法 。 


算法 9.1 (EM 算法 ) 


输入 : 观测 变量 数据 Y， 隐 变量 数据 Z， 联 合 分 布 PEY，ZIB)， 条 件 分 
布 P(Z|Y,@ ); 


输出 ， 模 型 参数 g 。 
(1) 选择 参数 的 初 值 9" ， 开 始 迭 代 ; 


EX: 记 8 "为 第 i 次 迭代 参数 g 的 估计 值 ， 在 第 i+1 次 送 代 的 E 步 ， 


0(0,0') = E, [log P(Y,Z|0)|Y,0] 
= X log P(Y,Z|O)P(Z|Y,0) (9.9) 
aj 


这 里 ，P(Z|Y,8") 是 在 给 定 观 测 数据 Y 和 当前 的 参数 估计 9 e FATER 
据 Z 的 条 件 概率 分 布 ; 


M 步 : 求 使 Q(O ,8") 极 大 化 的 89 ， 确 定 第 it1 次 友 代 的 参数 的 佑 计 
oO 


ge are max O(0.0") (9.10) 


(4) 重复 第 (2) HMB (3) 步 ， 直 到 收敛 。 
式 (9.9) 的 函数 Q(9 ,9") 是 EM 算法 的 核心 ， 称 为 Q 画 数 (Q 


function) 


定义 9.1 〈Q 画 数 ) ”完全 数据 的 对 数 似 然 画 数 logP(Y，ZIg ) 关 于 在 给 
定 观 测 数 据 Y 和 当前 参数 g "下 对 未 观测 数据 Z 的 条 件 概 率 分 布 P(Z|Y,@ © 
) 的 期 望 称 为 Q 函 数 ， 即 


0(0.00) = E,flog P(Y,Z| )|Y,0] (9.11) 
下 面 关 于 EM 算法 作 几 点 说 明 : 


as (1) ”参数 的 初 值 可 以 任意 选择 ， 但 需 注意 EM 算法 对 初 值 是 敏 


步骤 (2) ”EE 步 求 QR(9 ,G6")°。 QQ 函数 式 中 Z 是 未 观测 数据 ，Y 是 观测 数 
据 。 注 意 ，Q(8 ,8 ") 的 第 1 个 变 元 表示 要 极 大 化 的 参数 ， 第 2 个 变 元 表 
示 参 数 的 当前 估计 值 。 每 次 迭代 实际 在 求 Q 函 数 及 其 极 大 。 


步骤 (3) ” M 步 求 Q(9 ,8") 的 极 大 化 ， 得 到 g “” ， 完 成 一 次 大 代 @ "一 
8@"。 后 面 将 证 明 每 次 达 代 使 似 然 画 数 增 大 或 达到 局 部 极 值 。 

步骤 (4) ”给 出 停止 送 代 的 条 件 ， 一 般 是 对 较 小 的 正 数 E E A 
满足 


| QD _ 6 I< £, 或 || oe 8) -O00°,0°)|k< B 
TUBE LEAR. 。 


9.1.2 EM 算法 的 导出 


上 面 竹 述 了 EM 算法 。 为 什么 EM 算法 能 近似 实现 对 观测 数据 的 极 大 似 
PRATT WE? 下 面 通过 近似 求解 观测 数据 的 对 数 似 然 男 数 的 极 大 化 问题 
来 导出 EM 算法 ， 由 此 可 以 清楚 地 看 出 EM 算法 的 作用 。 


我 们 面 对 一 个 含有 隐 变 量 的 概率 模型 ， 目 标 是 极 大 化 观测 数据 (NSE 
全 数据 ) Y 关 于 参数 ATAU, BURA 


L(0) = log P(Y |0) = log >) P(Y,Z |0) 


(9.12) 
= os [> P(Y |Z,0)P(Z | D) 


注意 到 这 一 极 大 化 的 主要 困难 是 式 (9.12) 中 有 未 观测 数据 并 有 包含 和 
(或 积分 ) 的 对 数 。 
事实 上 ，EM 算 法 是 通过 送 代 隶 步 近似 极 大 化 L(@ ) 的 。 假 设 在 第 ij 次 送 


代 后 @ 的 估计 值 是 9。。 我 们 希望 新 估计 值 9 能 使 L(O YAm, RILO 
)>L(@")， 并 逐步 达到 极 大 值 。 为 此 ， 考 虑 两 者 的 差 : 


L(0)- L(0®) = eg| DPC |Z,0)P(Z | 0)]- log P(Y |") 
FA 


利用 Jensen 不 等 式 (Jensen inequality) 得 到 其 下 界 : 


(i) y (i) P(Y | Z,0)P(Z|@) (i) 
L(0)- L(0®)=1 P(Y | Z,e° )——————- |-- log P(Y | 6 
(0)- La’) o|} (Y| ) PO |Z.00) og P(Y |0") 
i (i) P(Y | Z,0)P(Z|@) (i 
>) P(Z|Y,0 )log——_———— - log P(Y |0 
> ne ee Ty MIE) 


= F PIZIY, 0” log — LOE) 
7 PUZ IY OP(Y | ) 


4 


P(Y |Z,0)P(Z\0) 


B(0,0) = LO) + ¥ P(Z\Y,0)I 
(0,0) = L )+ 2 PIE 08 ZIY oP 0) 


(9.13) 


则 


L(0) 2 B(O, 6”) (9.14) 
KBO ,8 9) 是 L(B ) 的 一 个 下 界 ， 而 且 由 式 (9.13) 可 知 ， 
L(O)= B(0® 6) (9.15) 


因此 ， 任 何 可 以 使 B(LB ,8") 增 大 的 9 ， 也 可 以 使 L(@ ) 增 大 。 为 了 使 L(@ 
) 有 尽 可 能 大 的 增长 ， 选 择 2 | BEBO ,8") 达 到 极 大 ， 即 


gi) = arg max B(O, 0") (9.16) 


MERA “的 表达 式 。 省 去 对 @ 的 极 大 化 而 言 是 常数 的 项 ， 由 式 
(9.16) 、 式 (9.13) 及 式 (9.10) ， 有 


0 = arg max LO)+ > P(Z | Yo hog oe ere 
: Z P(Z|Y,0)P(Y |e"). 


= arg max PAZ |Y,0)log( PY | Z.A)P(Z | | 
0 7 


= argiax{ X P(Z|Y,0"’ )log P( yz10)] 
0 7 


= arg max O(0,.0") (9.17) 


式 (9.17) 等 价 于 EM 算法 的 一 次 类 代 ， 即 求 Q 画 数 及 其 极 大 化 。EM 算 
8 AA ee ana 
法 。 


图 9.1 给 出 EM 算法 的 直观 解释 。 图 中 上 方 曲线 为 L(98 )， 下 方 曲 线 为 B(O 
,6")。 由 式 (9.14) , BO ,809) 为 对 数 似 然 画 数 LUB ) 的 下 界 。 由 式 
(9.15) ， 两 个 函数 在 点 8 = 二 8° 处 相等 。 由 式 (9.16) 和 式 (9.17) ， 

EM 算法 找到 下 一 个 点 Be 使 函数 B(B ,89°) 极 大 化 ， 也 使 画 数 Q(@ ,Do) 
极 大 化 。 这 时 由 于 L(B)>B(B ,Bo)， 画 数 B(B ,Bo) 的 增加 ， 保 证 对 数 似 
然 画 数 L(9 ) 在 每 次 迭代 中 也 是 增加 的 。EM 算 法 在 点 8 “重新 计算 Q 函 
数值 ， 进 行 下 一 次 迭代 。 在 这 个 过 程 中 ， 对 数 似 然 画 数 L(@ ) 不 断 增 
大 。 从 图 可 以 推断 出 EM 算法 不 能 保证 找到 全 局 最 优 值 。 


OFEBO MN 


L(A) 


BOO”) 


A ger) 


图 9.1 EM 算法 的 解释 


9.1.3 EM 算法 在 非 监 督学 习 中 的 应 用 


监督 学 习 是 由 训练 数据 {(x 1 ，y 1),(X2，y2),…,(X Nsy N)} 学 习 条 件 概率 
分 布 P(Y|X) 或 决策 画 数 Y =f(X) 作 为 模型 ， 用 于 分 类 、 回 归 、 标 注 等 任 
务 。 这 时 训练 数据 中 的 每 个 样本 点 由 输入 和 输出 对 组 成 。 


有 时 训练 数据 只 有 输入 没有 对 应 的 输出 {x17),(x2,).…,(XN; 上 }， 从 这 
样 的 数据 学 习 模 型 称 为 非 监督 学 习 问 题 。EM 算 法 可 以 用 于 生成 模型 的 
非 监督 学 习 。 生 成 模型 由 联合 概率 分 布 PCX,Y) 表 示 ， 可 以 认为 非 监督 
学 习 让 承 数 所 是 联合 概率 分 布 庆生 的 数据 “为 观测 数据 ，Y 为 林 观 


9.2 EM 算法 的 收敛 性 


EM 算法 提供 一 种 近似 计算 售 有 隐 变 量 概 率 模 型 的 极 大 似 然 估计 的 方 
法 。EM 算 法 的 最 大 优点 是 简单 性 和 普 适 性 。 我 们 很 目 然 地 要 问 : EM 
算法 得 到 的 估计 序列 是 否 收敛 ? 如 果 收 敛 ， 有 是 否 收敛 到 全 局 最 大 值 或 
局 部 极 大 值 ? 下 面 给 出 关于 EM 算法 收敛 性 的 两 个 定理 。 


定理 9.1 PYP ) 为 观测 数据 的 似 然 画 数 ，Do (i=1,2,...) 为 EM 算 
法 得 到 的 参数 估计 序列 ，P(YIBo) G=1,2,...) 为 对 应 的 似 然 画 数 序 
列 ， 则 PCYIB oo) 是 单调 递增 的 ， 即 


P(Y|0?) > P(Y| 6) (9.18) 
证 明 ”由 于 


ron Baia 
取 对 数 有 
log P(Y |0) = log P(7,Z10)-log P(Z | Y,0) 
由 式 (9.11) 
Q(0.0®) = log P(Y,Z | @)P(Z | Y.6) 
A 
H(0,0) => log P(Z| Y,0)P(Z| Y,0"”) (9.19) 
7 


于 是 对 数 似 然 画 数 可 以 写成 
log P(Y |0) = 0(0,0"") — H(0,0") (9.20) 
在 式 (9.20) 中 分 别 取 g oO MO 41) 并 相 减 ， 有 


log P(Y|0"")—logP(Y|10") 
=[0(0 0”) - 0(0” 00) -[H (0,0) -— H(0° 00) (9.21) 


为 证 式 (9.18) ， 只 需 证 式 (9.21) 右 端 是 非 负 的 。 式 (9.21) 右 端的 
BID, ATO QE ,9") 达 到 极 大 ， 所 以 有 


0(0*” 8) -0(8 6) =0 (9.22) 


其 第 2 项 ， 由 式 (9.19) 可 得 : 


H(6"*” 6) - H(6 6) 


7 (1+1) 
2 8 PCZ 7 Y,0") 
; REILE g ü 
chi YS -PZO 
al P(Z|Y.0") ) py | ) 
-sg| Z PIY”) )=0 (9.23) 
Z 


这 里 的 不 等 号 由 Jensen 不 等 式 得 到 o 
由 式 (9.22) 和 式 (9.23) 即 知 式 (9.21) 右 端 是 非 负 的 。 


定理 9.2 ” 设 L(9 )=1logP(Y|9 ) 为 观测 数据 的 对 数 似 然 画 数 ，@ "(i= 
1,2,...) 为 EM 算法 得 到 的 参数 估计 序列 ，L(B ANG 12,…..) 为 对 应 的 对 数 
似 然 函数 序列 。 


(1) 如 果 P(CYIB) 有 上 界 ， 则 LU(Bo)=logP(YIBo) 收 敛 到 某 一 值 志 ; 


(2) 在 函数 QCO 0 ) 与 L(O ) 满 足 一 定 条 件 下 ， 由 EM 算法 得 到 的 参数 舍 
计 序 列 889 的 收敛 值 8 “是 L(@ ) 的 稳定 点 。 


i (1) 由 L(B)=logP(YIBo) 的 单调 性 及 P(CYIB ) 的 有 界 性 立即 得 
J] o 


(2) 证 明 从 略 ， 参 阅 文献 le] 。 


RE FEO 2 TF BQO ,8' ) 与 L(@ ) 的 条 件 在 大 多 数 情况 下 都 是 满足 的 。 
EM 算法 的 收敛 性 包含 关于 对 数 似 然 画 数 序列 L(g ") 的 收敛 性 和 关于 参 
数 估计 序列 go 的 收敛 性 两 层 意思 ， 前 者 并 不 一 渔 后 者 。 此 外 ， 定 理 只 
能 保证 参数 估计 序列 收敛 到 对 数 似 然 画 数 序列 的 稳定 点 ， 不 能 保证 收 
BBR ATER ° 所 以 在 应 用 中 ， 初 值 的 选择 变 得 非 钊 重要 ， 币 用 的 办 
法 旦 选取 几 个 不 同 的 初 值 进 行 适 代 ， 然 后 对 得 到 的 各 个 估计 值 加 以 比 
较 ， 从 中 选择 最 好 的 。 


93 EM 算法 在 高 斯 混合 模型 学 习 中 的 应 用 


EM 算法 的 一 个 重要 应 用 是 高 斯 混合 模型 的 参 数 合计 o 高 斯 混合 模型 应 
用 广泛 ， 人 在 许多 情况 下 ， EM 算法 是 学 习 高 斯 混合 模型 (Gaussian 
misture model) 的 有 效 方法 。 


9.3.1 高 斯 混合 模型 


(高 斯 混合 模型 ) ”高 斯 混合 模型 是 指 具 有 如 下 形式 的 概率 分 
RAI, 


a 
P(y| 0) => a,(y| 4) (9.24) 
k=] 


K da IR da 
其 中 ，ak 是 系数 ，akz0，> wx =1; OOylON) 是 高 斯 分 布 密度 ，Dk =(K 
kel 


Ke): 


| (y uy 
(| 以 )= ee (9.25) 
Oe ae eo 2a; | 


称 为 第 k 个 分 模型 。 


一 般 混合 模型 可 以 由 任意 概率 分 布 密度 代替 式 (9.25) 中 的 高 斯 分 布 密 
度 ， 我 们 只 介绍 最 常用 的 高 斯 混合 模型 。 


9.3.2 ”高 斯 混合 模型 参数 估计 的 EM 算法 


假设 观测 数据 y 1 ,y ,,.….y n, 由 高 斯 混合 模型 生成 ， 


K 
P(y|0)= > a,0(y| 4) (9.26) 


k=l 


=(41,49,..5A,30 10 20k) ° 我 们 用 EM 算法 估计 高 斯 混合 


1. 明确 隐 变 量 ， 写 出 完全 数据 的 对 数 似 然 画 数 

可 以 设想 观测 数据 yj ，j=12,…N， 是 这 样 产 生 的 : 首先 依 概率 ak 选 
择 第 k 个 高 斯 分 布 分 模型 @(y|g k); 然后 依 第 k 个 分 模型 的 概率 分 布 C(y| 
Qk) 生 成 观测 数据 y;。 这 时 观测 数据 yy ，j=1,2,…,N， 古 已 知 的 ; 肥 映 
观测 数据 y 来 目 第 k 个 分 模型 的 数据 是 木 知 的 ，k=1,2,.…,K， 以 隐 变 量 
YET, RHEUM F: 


O fL 第 7 个 观测 来 自 第 大 个 分 模型 
Vik Vo 否则 


Seles KELZe (9.27) 
Xi 是 0-1 随 机 变量 。 
有 了 观测 数据 y; 及 未 观测 数据 yj. ， 那 么 完全 数据 是 
yy j=l2"5N 
于 是 ， 可 以 写 出 完全 数据 的 似 然 贸 数 : 


K N Y jk 
k 


=] Jæ TT [ 90, 189] 


一] j=l 


N K 
n, =) x , ei? =N 
j=l k=1 
IBA, TEPER A BBN 
log P0710)= Ùn, loga, +r, oe{ 5-8, SS, — 4, j 
2. EMBENEF: MERZ 


O(0,0"') = Ellog Pi, v|0)| v0] 


K N l | ’ 
= apa log a, + 之 入 toe( —logo, — 2a? 0 一 从 让 
K N 
-iber )loga, +È Er, «(e+ logo, -z7 -4 中 
(9.28) 
这 里 需要 计算 ECY xl )， 记 为 Pr 。 


Pn =E(y 6)= PCY, =1|y,0) 
> po =1,y, 108) 
> Poy, 1% =)PO = 118) 


_ BAY, |8,) 
Lae 18.) 


=1,2,:--,N; k=1,2,---,K 


7 水 是 在 当前 模型 参数 下 第 j 个 观测 数据 来 目 第 k 个 分 模型 的 概率 ， 称 为 
分 模型 k 对 观测 数据 y 的 响应 度 。 


将 7 yc =EY y Bim =È Era RAR (9.28) 即 得 


K N 
0(0,0) => n, log a, +) 7 oe 
k=l k=l 


] l Š 
—loga, -> (7-4) | (9.29) 
L) : 20; ‘ 


3. 确定 EM 算法 的 M 步 

eee 6° TO WK AME, BRKI HA RAS 
oe) = arg max O(0, 0") 

Håp. & RR, k=1,2,...,K, BRO "的 各 参数 。 Kür, GF 只 需 将 


R (9.29) SIU, RESPEK, MTBE Raet 
Ya, =1 条 件 下 求 偏 导数 并 令 其 为 0 得 到 的 。 结 果 如 下 ; 


D Pay 
= k=1,2,…,K (9.30) 
F Fi 
j=l 
o 
DaO) 
ô? =- 5, k=1,2,…,K (9.31) 
Yin 
n 2% 
& = 十 = 二 一， k=1,2,---/,K (9.32) 
N N 


重复 以 上 计算 ， 直 到 对 数 似 然 画 数 值 不 再 有 明显 的 变化 为 止 。 
现 将 估计 高 斯 混合 模型 参数 的 EM 算法 总 结 如 下 : 


算法 9.2 (高 斯 混合 模型 参数 估计 的 EM 算法 ) 


输入 : 观测 数据 y 1,y 5,...,yN， 高 斯 混合 模型 ， 


输出 : 高 斯 混合 模型 参数 。 
(1) 取 参 数 的 初始 值 开 始 迭 代 
(2) EX: 依据 当前 模型 参数 ， 计 算 分 模型 k 对 观测 数据 y 的 响应 度 


apy, 10 

ON j=1,2,,N; k=1,2,---,K 
Sap, |.) 

k=] 


jk 


(3) MÈ: t-PA NN RAS 


(4) 重复 第 (2) 步 和 第 (3) 步 ， 直 到 收敛 。 


9.4 EM 算法 的 推广 


EM 算法 还 可 以 解释 为 F 函 数 (F function) 的 极 大 - 极 大 算法 
(maximizationmaximization algorithm) ， 基 于 这 个 解释 有 若干 变形 与 
推广 ， 如 广义 期 望 极 大 (generalized expectation maximization, GEM) 
算法 。 下 面 予 以 介绍 。 
9.4.1 F 图 数 的 极 大 - 极 大 算法 


FICS EFRR Ve EME o 


定义 9.3 (FRR) ”假设 隐 变 量 数据 Zz 的 概率 分 布 为 5 (Z, Lop 
与 参数 9 的 函数 F(5 ,9 ) 如 下 : 


F(P,0)= Ellog P(Y,Z10)]+ H(P) (9.33) 
称 为 F 画 数 。 式 中 H(P )=-E slogP (Z) 是 分 布 5(Z) 的 炉 。 


在 定义 9.3 中 ， 通 常 假设 P(Y，ZI|9 ) 是 9 的 连续 函数 ， 因 而 F(5,9 ) 是 和 
8 的 连续 函数 。 函 数 F(5 ,9 ) 还 有 以 下 重要 性 质 : 


引 理 9.1 ”对 于 固定 的 9 ， 存 在 唯一 的 分 布 包 极 大 化 F(z ,9 )， 这 时 忆 H 
下 式 给 出 : 


B(Z)=P(Z|Y,0) (9.34) 
并 且 B 随 @ 连续 变化 。 
证 明 ”对 于 固定 的 g ， 可 以 求 得 使 F(B ,9 ) 达 到 极 大 的 分 布 B(Z)。 为 
此 ， 引 进 拉 格 朗 日 乘 子 1 ， 拉 格 朗 日 函数 为 


L=E,logP(Y,Z|@)—E; log P(Z) +2 


1- > P(Z) | 
Z 
REY A PBS: 


OL ~ 
——=log P(Y.Z|10)-—log P(Z)-1-A 
ËZ) gP(Y,Z |0)-log P(Z) 


A = log P(Y,Z|0)—log P,(Z) -1 
HEHE B (ZPY, ZO ) 成 比例 
P(F;210) =e 
P,(Z) 
再 从 约 来 条件.(Z) =1 得 式 (9.34) 。 


由 假设 PCY，ZIO ) 是 8 WER, GEIR 是 9 的 连续 函数 。 
引 理 9.2 GER(Z)=P(ZIVA). W 

F(P,0) = log P(Y | 0) (9.36) 
证 明 作为 习题 ， 留 给 读者 。 
由 以 上 引 理 ， 可 以 得 到 关于 EM 算法 用 F 函 数 的 极 大 - 极 大 算法 的 解释 。 
定理 9.3 ” 设 L(O)=1logP(YIB ) 为 观测 数据 的 对 数 似 然 画 数 ，D9 ，i= 
12,...， 为 EM 算法 得 到 的 参数 估计 序 列 ， 画 数 F(B ,9 ) 由 式 (9.33) 定 
义 。 如 果 F( ,9 ) 在 B* 和 @“ 有 局 部 极 大 值 ， 那 么 L(@ ) 也 在 2 有 局 部 极 


KIÉ ° RUH, WREE ,9 ) 在 B* 和 @“ 达 到 全 局 最 大 值 ， 那 么 L(@ ) 也 
在 8 达到 全 局 最 大 值 。 


WEAR ”由 引 理 9.1 和 引 理 9.2 可 知 ，L(O)=1logP(YIBD )= FÈ, 0 ERO 
成 立 。 特 别 地 ， 对 于 使 F(5 ,9 ) 达 到 极 大 的 参数 g”， 有 


L(0°)=F(P.,0°)=F(P’,0") (9.37) 


为 了 证 明 g@ 是 LO ) 的 极 大 点 ， 需 要 证 明 不 存在 接近 @ AO”, EL 
8 ”)>L(B )。 假 如 存在 这 样 的 点 2 ”， 那 么 应 有 F(p ,8 )>F(p ,0 
), HP ™ =~ o (HAD 是 随 @ EEA, PMR, AIP 
“和 @“ 是 F(P ,9 ) 的 局 部 极 大 点 的 假设 矛盾 。 


类 似 可 以 证 明 关 于 全 局 最 大 值 的 结论 。 
定理 9.4 ”EM 算法 的 一 次 送 代 可 由 F 范 数 的 极 大 - 极 大 算法 实现 。 


设 9 "为 第 i 次 迭代 参数 g 的 估计 ,天 人为 第 ij 次 迭代 函数 声 的 估计 。 在 第 
i+ TRIE E A 


(1) 对 固定 的 9®， 求 5 HE ORK; 
(2) EER, KO HEP 0 ) 极 大 化 。 
证 明 (1) 由 引 理 9.1， 对 于 固定 的 @"， 

p“ "S (Z)=P(Z|Y,0"") 
使 F(z O° RA ° HEBT, 


F(P“ 6) = E x. [log P(Y,Z |0) ]+ H(P”) 


=) log P(Y,Z|@)P(Z|Y,0)+ H(P”) 
Z 
HQE ,9") 的 定义 式 (9.11) 有 
F(P"*” 6) =0(0,0") + H(P*) 
(2) HEP, RKE "使 F( ,9 ) 极 大 化 。 得 到 
a) ~ arg max F (P“ 6) = arg max O(6, 6") 


MUEP EMAII — WAN o FEA, AEMBA SPR 
数 的 极 大 - 极 大 算法 得 到 的 参数 估计 序列 Be，i=1,2,…….， 是 一 致 的 。 


这 样 ， 就 有 EM 算法 的 推广 。 
9.4.22 ”GEM 算 法 
算法 9.3 (GEM 算 法 1) 


输入 : WLM, FEAR; 
输出 : 模型 参数 。 
(1) 初始 化 参数 Do， 开始 迭代 


(2) 第 it1 次 迭代 ， 第 1 步 :， 记 8 "为 参数 @ WEHE, Pe HKP ASI 
估计 。 求 5 使 5 极 大 化 F(5 ,8 ") 


(3) 第 2 步 : RKE EEG © ,@ ) 极 大 化 

(4) 重复 (2) 和 (3) ， 直 到 收敛 。 
在 GEM 算 法 1 中 ， 有 时 求 Q(B ,Bo) 的 极 大 化 是 很 困难 的 。 下 面 介 绍 的 
GEM 算 法 2 和 GEM 算 法 3 并 不 是 直接 求 9 "使 Q(@ , Bo) 达到 极 大 的 O ， 
而 是 找 一 个 9 (i+1) 使 得 Q(@ (+1) 0 © )>Q(B © 0 o) o 
算法 9.4 (GEM 算 法 2) 
输入 : 观测 数据 ，Q 画 数 ; 
输出 : 模型 参数 。 

(1) 初始 化 参数 Po ， 开 始 迭 代 

(2) 第 it1 次 迭代 ， 第 1 步 : we "为 参数 g 的 估计 值 ， 计 算 

O(0,0'”) = E [log P(Y,Z|@)|¥,0°] 
=) P(Z|Y,0)log P(Y,Z |) 


(3) 第 2 步 : Roo tk 
OO ,0°)> o(0 A) 
(4) 重复 (2) 和 (3) ， 直 到 收敛 。 


当 参 数 @ 的 维 数 为 d (d>2) 时 ， 可 采用 一 种 特殊 的 GEM 算 法 ， 它 将 EM 
算法 的 M 步 分 解 为 4 次 条 件 极 大 化 ， 每 次 只 改变 参数 向 量 的 一 个 分 量 ， 
其 余 分 量 不 改变 。 

算法 9.5 (GEM 算 法 3) 

输入 : 观测 数据 ，Q 画 数 ; 

输出 : 模型 参数 。 

(1) 初始 化 参数 Bo =(69 A ,...,0), FARE 


(2) BIHAR, Bix: 129° =(60 ,60 60 ) 为 参数 9 =6 1,02 
.ad) 的 合计 值 ， 计 算 


O(0,0'") = E, [log P(Y,Z|@)|Y,0] 
=) P(Z| y,0)log P(Y,Z |0) 
Z 


(3) 第 2 步 ， 进 行 d 次 条 件 极 大 化 ， 
首先 ， 在 gp ,...,.00 保持 不 变 的 条 件 下 求 使 Q(g ,达到 极 大 的 boro ; 


然后 ， 在 g 1 =6°", 9, =0, j=3,4,... KIA PREQE ,9") 达 到 
MAN ; 


如 此 继续 ， 经 过 d 次 条 件 极 大 化 ， 得 到 @ O = 0 ,6 60 ) 使 得 


O(0™, 0°)> o(8 ,A) 
(4) 重复 (2) 和 (3) ， 直 到 收敛 。 


本 章 概要 


1. EM 算法 是 含有 隐 变 量 的 概率 模型 极 大 似 然 佑 计 或 极 大 后 验 概 率 佑 
计 的 迭代 算法 。 含 有 隐 变 量 的 概率 模型 的 数据 表示 为 PF(Y，ZI8 )。 这 
里 ，Y 和 是 观测 变量 的 数据 ，Z 和 十 隐 变 量 的 数据 ，O 是 模型 参数 。EM 算 法 
通过 适 代 求解 观测 数据 的 对 数 似 然 画 数 L(OB )=1logP(YIBO ) 的 极 大 化 ， 实 


现 极 大 似 然 估计 。 每 次 送 代 包括 两 步 ，E 步 ， 求 期 望 ， 即 求 logP(Y，7| 
0 ) 关 于 P(ZIY,9") 的 期 户 


00,0”) = > log P(Y,Z| 0)P(Z|Y,0) 

称 为 Q 函 数 ， 这 里 9% 是 参数 的 现 估 计 值 ，M 步 ， 求 极 大 ， 即 极 大 化 Q 画 
数 得 到 参数 的 新 估计 值 : 

Or) = arg max O(0, 0") 
在 构建 具体 的 EM 算法 时 ， 重 要 的 是 定义 Q 画 数 。 每 次 选 代 中 ，EM 算 法 
通过 极 大 化 Q 函 数 来 增 大 对 数 似 然 国 数 L(B )。 
2. EM 算法 在 每 次 迭代 后 均 提 高 观测 数据 的 似 然 画 数值 ， 即 

P(7 | gen) > P(Y | 6) 
在 一 般 条 件 下 EM 算法 是 收敛 的 ， 但 不 能 保证 收敛 到 全 局 最 优 。 
3. EM 算法 应 用 极其 广泛 ， 主 要 应 用 于 含有 隐 变 量 的 概率 模型 的 学 
习 。 高 斯 混合 模型 的 参数 估计 是 EM 算法 的 一 个 重要 应 用 ， 下 一 章 将 要 
介绍 的 隐 马 尔 可 夫 模 型 的 非 监督 学 习 也 是 EM 算法 的 一 个 重要 应 用 。 
4. EM 算法 还 可 以 解释 为 F 国 数 的 极 大 - 极 大 算法 。EM 算 法 有 许多 变 


形 ， 如 GEM 算 法 。GEM 算 法 的 特点 是 每 次 友 代 增加 F 函 数值 (并 不 一 
定 是 极 大 化 F 函 数 ) ， 从 而 增加 似 然 画 数 值 。 


继续 阅读 


EM 算法 由 Dempster 等 人 总 结 提 出 上 。 类 似 的 算法 之 前 已 被 提出 ， 如 
Baum 与 Welch 算 法 ， 但 是 都 没有 EM 算法 那么 广泛 。EM 算 法 的 介绍 可 
参见 文献 [2~-4]。EM 算 法 收敛 性 定理 的 有 关 证 明 见 文献 [5]。GEM 是 由 
Neal 与 Hinton 提 出 的 9%。 


习题 


9.1 如 例 9.1 的 三 硬币 模型 。 假 设 观 测 数据 不 变 ， 试 选择 不 同 的 初 值 ， 
MU, IT e =0.46, pe =0.55, q® = 三 0.67， 求 模型 参数 0 =(77 ,p,q) 的 
极 大 似 然 估计 。 

9.2 证明 引 理 9.2。 

9.3 已 知 观测 数据 

-67, —48, 6, 8, 14, 16, 23, 24, 28, 29, 41, 49, 56, 60, 75 

试 估计 两 个 分 量 的 高 斯 混合 模型 的 5 个 参数 。 

9.4 EM 算法 可 以 用 到 朴素 贝 叶 斯 法 的 非 监督 学 习 。 试 写 出 其 算法 。 
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第 10 章 ” 隐 马 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 (hidden Markov model, HMM) 是 可 用 于 标注 问题 的 统 
计 学 习 模 型 ， 描 述 由 隐藏 的 马尔 可 夫 链 随机 生成 观测 序列 的 过 程 ， 属 
于 生成 模型 。 本 章 首 先 介 绍 隐 马尔 可 夫 模 型 的 基本 概念 ， 然 后 分 别 叙 
述 隐 马尔 可 夫 模 型 的 概率 计算 算法 、 学 习 算 法 以 及 预测 算法 。 隐 马尔 
可 夫 模 型 在 语音 识别 、 自 然 语言 处 理 、 生 物 信 息 、 模 式 识别 等 领域 有 
着 广泛 的 应 用 。 


10.1 隐 马 尔 可 夫 模 型 的 基本 概念 


10.1.1 隐 马 尔 可 夫 模 型 的 定义 

定义 10.1 ( 隐 马 尔 可 夫 模 型 ) ” 隐 马 尔 可 夫 模 型 是 关于 时 序 的 概率 模 
型 ， 摘 述 由 一 个 隐 蕊 的 马尔 可 夫 链 随机 生成 不 可 观测 的 状态 随机 序 
列 ， 再 由 各 个 状态 生成 一 个 观测 而 产生 观测 随机 序列 的 过 程 。 隐 藏 的 
马尔 可 夫 链 随机 生成 的 状态 的 序列 ， 称 为 状态 序列 (state sequence) ; 
每 个 状态 生成 一 个 观测 ， 而 由 此 产生 的 观测 的 随机 序列 ， 称 为 观测 序 
列 (observation sequence) 。 序 列 的 每 一 个 位 置 又 可 以 看 作 是 一 个 时 
刻 。 


隐 马 尔 可 夫 模 型 由 初始 概率 分 布 、 状 态 转 移 概率 分 布 以 及 观测 概率 分 
布 确定 。 隐 马尔 可 夫 模 型 的 形式 定义 如 下 : 


设 Q 是 所 有 可 能 的 状态 的 集合 ，V 是 所 有 可 能 的 观测 的 集合 。 
O= {qqs sdut so V = {V Vas Vg 
其 中 ，N 征 可 能 的 状态 数 ，M 是 可 能 的 观测 数 。 
I 是 长 度 为 T 的 状态 序列 ，O 是 对 应 的 观测 序列 。 
I= (iii): O=(0,,0,,°°*,0,) 


A 是 状态 转移 概率 和 矩阵: 


A=|a, 3 (10.1) 
其 中 ， 
a, = P(i, =q; |i, =q) i=1,2,---,N; j=1,2,--°,N (10.2) 
是 在 时 刻 t 处 于 状态 qi 的 条 件 下 在 时 刻 t+1 转 移 到 状态 qj 的 概率 。 
B 是 观测 概率 和 矩阵: 


B=|b,(k) |. (10.3) 
其 中 ， 
b(k)=P(o,=v,|i,=9,)> 天 =12…M; j=1,2,.…,N (10.4) 

是 在 时 刻 t 处 于 状态 q; 的 条 件 下 生成 观测 w 的 概率 。 

TT 是 初始 状态 概率 向 量 : 

元 = (万 ) (10.5) 
其 中 ， 
#,=PG,=q,)s 2 (10.6) 


定时 刻 t=1 处 于 状态 qi 的 概率 。 


隐 马 尔 可 夫 模 型 由 初始 状态 概率 向 量 元 、 状 态 转 移 概 率 和 矩阵 A 和 观测 
概率 矩阵 B 决 是 。 克 和 A 决定 状态 序列 ，B 决 定 观 测序 列 。 因 此 ， 隐 马 
尔 可 夫 模 型 4 可 以 用 三 元 符号 表示 ， 即 

A =(A,B,z) (10.7) 


A,B, BRAKE SK A] KIRA = RR 


状态 转移 概率 矩阵 A 与 初始 状态 概率 癌 量 7 确定 了 隐藏 的 马尔 可 夫 
链 ， 生 成 不 可 观测 的 状态 序列 。 观 测 概率 矩阵 B 确 定 了 如 何 从 状态 生成 
观测 ， 与 状态 序列 综合 确定 了 如 何 产生 观测 序列 。 


从 定义 可 知 ， 隐 马尔 可 夫 模 型 作 了 两 个 基本 假设 ; 

(1) 齐 次 马尔 可 夫 性 假设 ， 即 假设 隐藏 的 马尔 可 夫 链 在 任意 时 刻 t 的 状 
态 只 依赖 于 其 前 一 时 刻 的 状态 ， 与 其 他 时 刻 的 状态 及 观测 无 关 ， 也 与 
时 刻 t 无 关 。 

| (10.8) 


(2) 观测 独立 性 假设 ， 即 假设 任意 时 刻 的 观测 只 依赖 于 该 时 刻 的 马尔 
可 夫 链 的 状态 ， 与 其 他 观测 及 状态 无 天 。 


P(o, | ip Op shy ys Opis sb Om 98 94)-19%-19°* 2h) ) = PCO, 1i) (10.9) 


隐 马 尔 可 夫 模 型 可 以 用 于 标注 ， 这 时 状态 对 应 着 标记 。 标 注 问题 是 给 
定 观 测 的 序列 预测 其 对 应 的 标记 序列 。 可 以 假设 标注 问题 的 数据 是 由 
隐 马 尔 可 夫 和 模型 生成 的 。 这 样 我 们 可 以 利用 隐 马 尔 可 夫 模 型 的 学 习 与 
预测 算法 进行 标注 。 


下 面 看 一 个 隐 马 尔 可 夫 模 型 的 例子 。 


例 10.1 《盒子 和 球 模型 ) ”假设 有 4 个 盒子 ， 每 个 盒子 里 都 装 有 红 白 两 
种 颜色 的 球 ， 盒 子 里 的 红 白 球 数 由 表 10.1 列 出 。 


表 10.1 各 盒子 的 红 白 球 数 


k TF | 2 3 4 
ZT BR EY 5 3 6 8 
HERS 5 7 4 2 


按照 下 面 的 方法 抽 球 ， 产 生 一 个 球 的 颜色 的 观测 序列 : 开始 ， 从 4 个 盒 
子 里 以 等 概率 随机 选取 1 个 盒子 ， 从 这 个 盒子 里 随机 抽出 1 个 球 ， 记 录 
其 颜色 后 ， 放 回 : 然后 ， 从 当前 金子 随机 转移 到 下 一 个 人 金子， 规则 

征 : 如 果 当 前 盒子 是 盒子 1， 那 么 下 一 盒子 一 定 是 盒子 2， 如 有 果 当 前 是 
盒子 2 或 3， 那 么 分 别 以 概率 0.4 和 0.6 转 移 到 左边 或 右边 的 盒子 ， 如 果 当 


前 是 盒子 4， 那 么 各 以 0.5 的 概率 停留 在 盒子 4 或 转移 到 盒子 3;， 确定 转移 

的 盒子 后 ， 再 从 这 个 盒子 里 随机 抽出 1 个 球 ， 记 录 其 颜色 ， 放 回 ， 如 此 

下 去 ， 重 复 进 行 5 次 ， 得 到 一 个 球 的 颜色 的 观测 序列 : 
O={ 红 , 红 , 白 , 白 , 红 } 


在 这 个 过 程 中 ， 观 察 者 只 能 观测 到 球 的 颜色 的 序列 ， 观 测 不 到 球 是 从 
哪个 盒子 取出 的 ， 即 观测 不 到 盒子 的 序列 。 


在 这 个 例子 中 有 两 个 随机 序列 ， 一 个 是 盒子 的 序列 (状态 序列 ) ， 一 
个 是 球 的 颜色 的 观测 序列 (观测 序列 ) o MEER, REMEE 
可 观测 购 。 这 是 一 个 隐 马 尔 可 夫 模 型 的 例子 ， 根 据 所 给 条 件 ， 可 以 明 
确 状态 集合 、 观 测 集合 、 序 列 长 度 以 及 模型 的 三 要 素 。 
盒子 对 应 状态 ， 状 态 的 集合 是 

Q={BTLET2Z.ET3,874}, N=4 
球 的 颜色 对 应 观测 。 观 测 的 集合 是 

V={ 红 ,日 },，M=2 

状态 序列 和 观测 序列 长 度 T=5。 
初始 概率 分 布 为 


JT =(0.25,0.25,0.25,0.25)" 
状态 转移 概率 分 布 为 


0 0 053 OS 


观测 概率 分 布 为 


0.5 0.5 
0.3 0.7 
0.6 0.4 
0.8 0.2 


10.1.2 ”观测 序列 的 生成 过 程 


根据 隐 马 尔 可 夫 模 型 定义 ， 可 以 将 一 个 长 度 为 T 的 观测 序列 O=(oi ，o 
2….oT) 的 生成 过 程 摘 述 如 下 : 


算法 10.1 (观测 序列 的 生成 ) 

输入 隐 马 尔 可 夫 模 型 4 =(A，B,7r )， 观 测序 列 长 度 T; 
输出 : 观测 序列 O=(o; ，o，...,oT)。 

(1) 按照 初始 状态 分 布 灰 产生 状态 il 

(2) 令 t=1 

(3) 按照 状态 i 的 观测 概率 分 布 b ;t(k) 生 成 o. 


(4) 按照 状态 i 的 状态 转移 概率 分 布 {Gi; | } 产 生 状 态 itl ie = 
dh 2 


(5) St=t+1; 如 果 t<T， 转 步 (3) ; 否则 ， 终 止 
10.1.3 ” 隐 马 尔 可 夫 模 型 的 3 个 基本 问题 
隐 马 尔 可 夫 模 型 有 3 个 基本 问题 : 


(1) 概率 计算 问题 。 给 定 模型 4 =(A, BZ ) 和 观测 序列 0= (01, 03 
yO), TEETER A 下 观测 序列 O 出 现 的 概率 P(O|4)。 


(2) 学 习 问 题 。 已 知 观测 序列 0=(o; ，0,,.….,0T)， 估 计 模 型 4 
(A，B,T ) 参 数 ， 使 得 在 该 模型 下 观测 序列 概率 P(Ol4 ) 最 大 。 即 用 极 大 
似 然 估 计 的 方法 估计 参数 。 


(3) 预测 问题 ， 也 称 为 解码 (decoding) 问题 。 已 知 模型 4 =(A, B, 

天 ) 和 观测 序列 0=(o;，0,，,...,0T)， 求 对 给 定 观 测序 列 条 件 概 率 P(I|O) 
最 大 的 状态 序列 I= (ii ，i .iTr)。 即 给 定 观 测序 列 ， 求 最 有 可 能 的 对 
应 的 状态 序列 。 


下 面 各 节 将 逐一 介绍 这 些 基本 问题 的 解法 。 
10.2 ”概率 计算 算法 


本 节 介 绍 计算 观测 序列 概率 P(O4 ) 的 前 向 (forward) 与 后 向 
(backward) 算法 。 先 介绍 概念 上 可 行 但 计算 上 不 可 行 的 直接 计算 


法 。 


10.2.1 直接 计算 法 


给 定 模型 4 =(A, B, ) 和 观测 序列 O=(o; ，o,,….,oT)， 计 算 观 测序 
列 O 出 现 的 概率 P(O|4.)。 最 直接 的 方法 是 按 概率 公式 直接 计算 。 通 过 列 
举 所 有 可 能 的 长 度 为 T 的 状态 序列 LI= (ii ，i,,...,i7)， 求 各 个 状态 序列 I 
与 观测 序列 0=(o，，o .or) 的 联合 概率 P(O，14 )， 然 后 对 所 有 可 
能 的 状态 序列 求 和 ， 得 到 P(O|4.)。 


状态 序列 I= (ii ，i,，.ir) 的 概率 是 
P(I|A)=7,4,,4,, 4, , (10.10) 


hh iy 2h try ty 


WEERTS (i, iir)， 观 测序 列 O=(o1 ，05,.….,07) 的 
概率 是 P(OIL4 )， 


P(O|I,2) =b, (0,)5, (0,).…b. (or) (10.11) 


O 和 I 同时 出 现 的 联合 概率 为 


P(O,I|A)=P(O|I,A)PU | A) 
= 7b, (0,)a b, (0) a, „b, (Or) (10.12) 


ipyip i 


对 所 有 可 能 的 状态 序列 I 求 和 ， 得 到 观测 序列 0 的 概率 P(Ol4 )， 


P(O|A)= > P(O|I,A)PU | A) 


= J, 2,b,(0,)a,,,b, (0,)---a, b, (or) (10.13) 


但 是 ， 利 用 公式 (10.13) 计算 量 很 大 ， 是 OCTN ?7) 阶 的 ， 这 种 算法 不 可 
人 
下 面 介 绍 计算 观测 序列 概率 P(O|4 ) 的 有 效 算法 : 前 向 -后 向 算法 


(forwardbackward algorithm ) 


10.2.2 ”前 向 算法 


首先 定义 前 向 概率 。 


定义 10.2 (前 向 概率 ) ” 给 定 隐 马 尔 可 夫 模 型 4 ， 定 义 到 时 刻 t 部 分 观 
测序 列 为 01,0,,…,o01 且 状态 为 qi; 的 概率 为 前 向 概率 ， 记 作 


a, (i) = P(0,,0,,…,0,,i, =q; | A) (10.14) 
可 以 递 推 地 求 得 前 向 概率 a, 及 观测 序列 概率 P(Ol4 )。 
算法 10.2 (观测 序列 概率 的 前 向 算法 ) 
输入 : 隐 马 尔 可 夫 模 型 4 ， 观 测序 列 O; 
输出 : 观测 序列 概率 P(Ol4)。 
(1) 初 值 
a(i)=2,b(0,), i=1,2,,N (10.15) 


(2) E 对 t=12,...， 工 1 


N 
af =| Sea, Blon): i=1,2,---,N (10.16) 


j=l 


(3) Aik 
P(O| WD=Y ar 人 (10.17) m 


前 向 算法 ， 步 骤 (1) 初始 化 前 向 概率 ， 是 初始 时 刻 的 状态 ii; =qi 和 观 
Wo, 的 联合 概率 。 步 又 (2) 是 前 向 概率 的 递 推 公式 ， 计 算 到 时 刻 t+1 
部 分 观测 序列 为 o1,o,，..,oy，oui 且 在 时 刻 t+1 处 于 状态 q; 的 前 向 概 
率 ， 如 图 10.1 所 示 。 在 式 (10.16) ATTIRE, Beat) cE ZIM 
测 到 o ,oot 并 在 时 刻 t 处 于 状态 qi 的 前 回 概 率 ， 那 么 乘积 at()ai 束 
是 到 时 刻 t 观 测 到 oj ,o .0ot 并 在 时 刻 t 处 于 状态 qj 而 在 时 刻 t+1 到 达 状 
态 qi 的 联合 概率 。 对 这 个 乘积 在 时 刻 t 的 所 有 可 能 的 N 个 状态 qj 求 和 ， 
其 结果 就 是 到 时 刻 t 观 测 为 o 1,o,,..,o 1 并 在 时 刻 t+1 处 于 状态 gq ;的 联合 概 
率 。 方 括 弧 里 的 值 与 观测 概率 bi (o 1) 的 乘积 恰好 是 到 时 刻 t+1 观 测 到 o 
1,02,..01，oi 并 在 时 刻 t+1 处 于 状态 q; 的 前 向 概率 al (Gi)。 步 又 

(3) 给 出 P(Ol4 ) 的 计算 公式 。 因 为 


a, (i) = P(0,,0,,°*:,07,i7 =q; | A) 


所 以 


P(O|A)=>a,(i) 
i=l 


aj) Q (Ù) 
图 10.1 前 向 概率 的 递 推 公式 


如 图 10.2 所 示 ， 前 向 算法 实际 是 基于 “状态 序列 的 路 径 结构 * 递 推 计 算 
P(O|A ) 的 算法 。 前 向 算法 高 效 的 关键 是 其 局 部 计算 前 向 概率 ， 然 后 利 
用 路 径 结 构 将 前 癌 概 率 “ 递 推 ? 到 全 局 ， 得 到 P(Ol4 )。 上 有 具体 地 ， 在 时 刻 { 
二 1， 计 算 a GO) 的 N 个 值 G=1,2,...,N); 在 各 个 时 刻 t=12,…., 工 LT， 计 算 a 
OOD 的 N 个 值 t=12..,N)， 而 且 每 个 au (0) 的 计算 利用 前 一 时 刻 N 个 a 
(j) ° 减少 计算 量 的 原因 在 于 每 一 次 计算 直接 引用 前 一 个 时 刻 的 计算 结 
果 ， 避 免 重复 计算 。 这 样 ， 利 用 前 向 概率 计算 P(Ol4 ) 的 计算 量 是 O(N: 
T) 阶 的 ， 而 不 是 直接 计算 的 O(TN 7?) 阶 。 


图 10.2 ”观测 序列 路 径 结构 


例 10.2 “考虑 盒子 和 球 模 型 4 =(A, BZ), ASBAQ={1,2,3}, WM 
MGV ={2ZL, A}, 


O35 02 03 
A=|03 05 02|, B= 
0.2 0.3 0.5 


0.5 0.5 
0.4 0.6 
0.7 0.3 


» æ =(0.2,0.4,0.4)' 


iT=3, O=(41,8,21), AAT SPol,) 。 
解 ” 按 照 算法 10.2 
(1) 计算 初 值 


a (1) = 2,b,(0,) = 0.10 
a, (2) = z,b,(0,) = 0.16 
a, (3) = 2,b,(0,) = 0.28 
(2) 递 推 计算 
a, (l)= Da Oa | (0,) =0.154x 0.5 = 0.077 
=| a Oan fb (0,) =0.184x 0.6 = 0.1104 
a, (3) = bx Oas lb (0,) = 0.202 x 0.3 = 0.0606 
=| da, (Da, Je (0,) = 0.04187 
a,(2) =|} | 


ya (i)a, |b, (0,) = 0.03551 


a,(3) = b a, (oa [ho) = 0.05284 


i=l 


(3) 终止 


P(O|A)= 》 a(i) = 0.13022 = 


10.2.3 ”后 向 算法 

定义 10.3 (后 向 概率 ) ” 给 定 隐 马 尔 可 夫 模 型 4 ， 定 义 在 时 刻 t 状 态 为 q 
;的 条 件 下 ， 从 t+1 到 T 的 部 分 观测 序列 为 0441,0442,…,0T 的 概率 为 后 向 
概率 ， 记 作 

| (10.18) 
可 以 用 递 推 的 方法 求 得 后 癌 概 率 B,OD) 及 观测 序列 概率 P(Ol4) 。 
算法 10.3 《观测 序列 概率 的 后 向 算法 ) 
输入 : 隐 马 尔 可 夫 模 型 4 ， 观 测序 列 O; 
输出 : 观测 序列 概率 P(O|4.)。 


Gl 


BAi)=1, i=1,2,…,N (10.19) 
(2) Xft=T-1,T -2,1 
N 
BG) = $ 4,b,(0,, Bx)» i=1,2,---,N (10.20) 
jel 
(3) 
N 
P(O\A)=> rb, (0)B (i) (10.21) = 
i=l 


步骤 (1) 初始 化 后 向 概率 ， 对 最 终 时 刻 的 所 有 状态 qi 规定 p,(GD=1。 
步骤 (2) 是 后 向 概率 的 递 推 公式 。 如 图 10.3 所 示 ， 为 了 计算 在 时 刻 t 状 
态 为 qi 条 件 下 时 刻 tr1 之 后 的 观测 序列 为 oul,o wa, .or 的 后 向 概率 B， 
()， 只 需 考 虑 在 时 刻 tt1 所 有 


dN 
I t+1 
Bi) BiG) 
图 10.3 Jal RAPES 


可 能 的 N 个 状态 q ;的 转移 概率 〈 即 ay 项 ) ， 以 及 在 此 状态 下 的 观测 ou 
的 观测 概率 (Eb (on) ， 然 后 考虑 状态 qj 之 后 的 观测 序列 的 后 向 
概率 (BOB) 。 步 又 (3) 求 P(OI4 ) 的 思路 与 步骤 (2) 一 致 ， 只 
是 初始 概率 ;代替 转移 概率 。 


利用 前 向 概率 和 后 向 概率 的 定义 可 以 将 观测 序列 概率 P(O|4 ) 统 一 写成 


P(O|2)= > Ya, (a,b (0, Ba) 1=1,2,…,T-! (10.22) 


f=] j=l 


此 式 当 t=1 和 t= 工 1 时 分 别 为 式 (10.17) 和 式 (10.21) ° 


10.2.4 一些 概率 与 期 望 值 的 计算 


利用 前 向 概率 和 后 向 概率 ， 可 以 得 到 关于 单个 状态 和 两 个 状态 概率 的 
计算 公式 。 


1. 给 定 模型 4 和 观测 O， 在 时 刻 t 处 于 状态 q ;的 概率 。 记 
y(i) = P(i, = gq; | O,4) (10.23) 
可 以 通过 前 问 后 癌 概 率 计 算 。 事 实 上 ， 


, , P(i =q,,0|A) 
= Pi =¢ |0.4)-—" ee 
y,(i) = Pi, = gq, |O,4) POIA 


FA BW Aa , (DAS ARB OETA: 
a, (i)B,(i) = P(i =4,,0| A) 


a OLO a8) 


y(i) = 7 
A yo 


(10.24) 


2. 给 定 模型 4 和 观测 O， 在 时 刻 t 处 于 状态 iq 且 在 时 刻 1t+ 处 于 状态 q ;的 
概率 。 记 


E(.J)=PE, =g =%; 10,4) (10.25) 
可 以 通过 前 向 后 癌 概 率 计 算 : 
PU = gi, =9g,,0|4) a P(i, = Gist; =q),0|A) 


aha 
P(O\A) YY PG, = Giri =9),01A) 
i=l j=l 
而 
PC, = qisin =q,,0|A)=a,(1)a,6,(0,, BQ) 
所 以 


EG, = OP) _ 


(10.26) 
2 2 a, (i)a;b, (0,, Paa (j) 


i=] j=l 


3. HY OME GDA AZKA, Fy Aa A AE: 


(1) 在 观测 O 下 状态 出现 的 期 望 值 


: 
LAG) (10.27) 
t=l 


(2) 在 观测 O 下 由 状态 转移 的 期 望 值 


了 一 | 


LAG) (10.28) 


1=] 


(3) 在 观测 O 下 由 状态 转移 到 状态 j 的 期 望 值 


E(i,)) (10.29) 


10.3 ”学习 算法 


隐 马 尔 可 夫 模 型 的 学 习 ， 根 据 训 练 数据 是 包括 观测 序列 和 对 应 的 状态 
序列 还 是 只 有 观测 序列 ， 可 以 分 别 由 监督 学 习 与 非 监 督学 习 实现 。 本 
节 首 先 介 绍 监督 学 习 算 法 ， 而 后 介绍 非 监 督学 习 算 法 一 Baum-Welch 
算法 (也 就 是 EM 算法 ) 。 


10.3.1 监督 学 习 方 法 
假设 已 给 训练 数据 包含 S 个 长 度 相同 的 观测 序列 和 对 应 的 状态 序列 {(O ， 
,了 ),(0 12),.….,(O s,s)}， 那 么 可 以 利用 极 大 似 然 估 计 法 来 估计 隐 马 尔 
可 夫 模 型 的 参数 。 具 体 方法 如 下 。 


设 样本 中 时 刻 t 处 于 状态 i 时 刻 tr1 转 移 到 状态 j 的 频数 为 A; ， 那 么 状态 转 
移 概率 ai 的 估计 是 


â, ==; 1=12…N，7=12…,N (10.30) 


2. 观测 概率 b;(k) 的 估计 


设 样 本 中 状态 为 j 并 观测 为 k 的 频数 是 Bj ， 那 么 状态 为 j 观 测 为 k 的 概率 b 
9 的 估计 是 


B 
b(k)=—*—, j=1,2,%,N; k=1,2,…,M (10.31) 


M 


Bi, 
3. WIRST ;的 佑 计 侈 ;为 S 个 样本 中 初始 状态 为 qi; 的 频率 


由 于 监督 学 习 需 要 使 用 训练 数据 ， 而 人 工 标注 训练 数据 往往 代价 很 
高 ， 有 时 融会 利用 非 监督 学 习 的 方法 。 


10.3.2” Baum-Welch 算 法 
假设 给 定 训练 数 据 只 包含 S 个 长 度 为 T 的 观测 序列 {O ,0 ,,...,O so} 而 没 
有 对 应 的 状态 序列 ， 目 标 是 学 习 隐 马尔 可 夫 模 型 4 =(A, BT ) 的 参 
数 。 我 们 将 观测 序列 数据 看 作 观 测 数 据 O， 状 态 序 列 数 据 看 作 不 可 观测 
的 隐 数 据 I[， 那 么 隐 马 尔 可 夫 模 型 事实 上 是 一 个 含有 隐 变 量 的 概率 模型 


P(O|A) =>, P(O|1,A)P( | A) (10.32) 
I 


它 的 参数 学 习 可 以 由 EM 算法 实现 。 
1. 确定 完全 数据 的 对 数 似 然 画 数 
所 有 观测 数据 写成 0=(o; ，o,,…..,or)， 所 有 隐 数 据 写成 [=(i，i， 


,if)， 完 全 数据 是 (0.D =(o; 02,..,0 ps1, isir)。 完 全 数据 的 
对 数 似 然 函 数 是 logP(O，Il4)。 


2. EM 算法 的 E 步 : 求 Q 函 数 (4 7)” 
2(4,4)= > log P(O,1 | A)P(O,1| 2) (10.33) 
元 是 隐 马 尔 可 夫 模 型 参数 的 当前 估计 值 ，4 是 要 极 大 化 的 隐 马 
尔 可 夫 模 型 参数 。 


P(O,1 |4) = m, b, (0,)a,,,5, (03) +a, ; b, (Or) 


ip iy 


于 是 函数 QG4 7 ) 可 以 写成 : 
Q(4,4)= > log x, P(O,1| 2) 
+ Z| Soe iy pot |A)+ 2 os b, (0) PO |2) (10.34) 
式 中 求 和 都 是 对 所 有 训练 数据 的 序列 总 长 度 T 进 行 的 。 
3. EM 算法 的 M 步 : 极 大 化 Q 函 数 QC4 7 RRS A,B IT 


由 于 要 极 大 化 的 参数 在 式 (10.34) 中 单独 地 出 现在 3 个 项 中 ， 所 以 只 需 
对 各 项 分 别 极 大 化 。 


(1) 式 (10.34) 的 第 1 项 可 以 写成 : 


2,08m, PO, ID- lowe P(O,i, =i|A) 


i=l 


注意 到 AYRE. =1 ， 利 用 拉 格 朗 日 乘 子 法 ， 写 出 拉 格 朗 日 
BRL: i 


N oy N 
> log z,P(O,i, -D+ Sn -1) 
i=l i=l 


对 其 求 偏 导 数 并 令 结果 为 0 


Z| Seen PC. i -D+ Sn -1})=0 


m Lia 
得 
P(O,i, =i|A2)+ yz, =0 
对 i 求 和 得 到 yy 
y=-P(O|A) 
代入 式 (10.35) 即 得 
_ P(O,i, =i|A) 


'  P(O|A) 
(2) 式 (10.34) 的 第 2 项 可 以 写成 
T-1 


I i=] j=l t=l 


(10.35) 


(10.36) 


Y[ Hoe, }PowriD= >> log a, P(O,i, =i,i,,, = j|A) 
t=1 


类 似 第 1 项 ， 应 用 具有 约束 条 件 > =1 的 拉 格 明日 乘 子 法 可 以 求 出 


T-I 
P(O =i,i,,, = j|A) 
ij ar 


> P(O,i, =il4) 


(3) 式 (10.34) 的 第 3 项 为 


(10.37) 


2 Dos, (o, Jro. I|A)= SY logs, (0,)P(O,i, = j|A) 


j=l t=1 


同样 用 拉 格 朗 日 乘 子 法 ， 约束 条 件 是 Yb,(h)=1 。 注 意 ， 只 有 在 o, =v, 
时 bj(og 对 bj 的 俩 导数 才 不 为 0， 以 I(ot =vk) 和 表示 。 求 得 


T 一 一 
> P(O,i, = j | A) (0, =v) 


b (k) =! (10.38) 


7 


> P(O. = j|A) 
t=l 


10.3.3 “Baum-wWelch 模 型 参数 估计 公式 


将 式 (10.36) ~I} (10.38) 中 的 各 概率 分 别 用 y O., EDER, J 
可 将 相应 的 公式 写成 : 


VEGA 
a, ==- (10.39) 
7 
， 
Ae) 
b (k) = + (10.40) 
>》 7 (7 
m, =y (i) (10.41) 


HH, yO, EAA (10.24) 及 式 (10.26) 给 出 。 式 
(10.39) ~zt (10.41) 就 是 Baum-Welch 算 法 (Baum-Welch 
algorithm) ， 它 是 EM 算法 在 隐 马 尔 可 夫 模 型 学 习 中 的 具体 实现 ， 由 
Baum 和 Welch 提 出 。 


算法 10.4 (Baum-Welch 算 法 ) 
输入 : 观测 数据 O= (01, 03,307); 


输出 : 隐 马 尔 可 夫 模 型 参数 。 
(1) 初始 化 
Wn=0, Ha”, 60°, 2, BERNA =(A°,B°,77%)° 


(2) JÈ ° ¥n=1,2,..., 


-l 


SEED 


(a+1) _ tzl 
a; MEE 


AQ) 


tal 


T 


= Yr.) 


b (kyr = t=1,0, =v; 
J F 


.0) 


t=1 
(1+1) 
E t=) 


右 端 各 值 按 观 测 O=(o; ，o，,.….,oT) 和 模型 4m =(A°,B%,7T ONT o 
AY ,人 ，E ji) 由 式 (10.24) 和 式 (10.26) 给 出 。 


(3) 终止 。 得 到 模型 参数 4% = (A "BD Jr ony o 
10.4 ”预测 算法 


下 面 介绍 隐 马 尔 可 夫 模 型 预测 的 两 种 算法 : 近似 算法 与 维特 比 算法 
(Viterbi algorithm) 


10.4.1 近似 算法 


近似 算法 的 想法 是 ， 在 每 个 时 刻 t 选 择 在 该 时 刻 最 有 可 能 出 现 的 状态 六 
， 从 而 得 到 一 个 状态 序列 1* =E, Goi), ERATIK 。 


定 隐 马 尔 可 夫 模 型 4 和 观测 序列 O， 在 时 刻 t 处 于 状态 qi 的 概率 7 (i) 


A 

2H 
Ši 

KE 


(p= 2 BW __ OBO oe 


POID Ya BU) 
j=l 


在 每 一 时 刻 t 最 有 可 能 的 状态 六 是 


i” =arg max[y, (i)] » t=1,2;T (10.43) 


从 而 得 到 状态 序列 1* =E, Erit) 


近似 算法 的 优点 是 计算 简单 ， 其 缺点 是 不 能 保证 预测 的 状态 序列 整体 
征 最 有 可 能 的 状态 序列 ， 因 为 预测 的 状态 序列 可 能 有 实际 不 发 生 的 部 
分 。 事 实 上 ， 上 壕 方 法 得 到 的 状态 序列 中 有 可 能 存在 转移 概率 为 0 的 相 
SARS, BAYA), a =0 时 。 尽 管 如 此 ， 近 似 算 法 仍然 是 有 用 的 。 


10.4.2 ”维特 比 算法 


维特 比 算法 实际 是 用 动态 规划 解 隐 马 尔 可 夫 模 型 预测 问题 ， 即 用 动态 
规划 (dynamic programming) 求 概率 最 大 路 径 〈 最 优 路 径 ) 。 这 时 一 
条 路 径 对 应 着 一 个 状态 序列 。 


根据 动态 规划 原理 ， 最 优 路 径 具 有 这 样 的 特性 : 如 有 果 最 优 路 径 在 时 刻 |t 
AR, ， 那 么 这 一 路 径 从 结 扣 六 到 终点 下 的 部 分 路 径 ， 对 于 从 六 
到 疡 的 所 有 可 能 的 部 分 路 径 来 说 ， 必 须 是 最 优 的 。 因 为 假如 不 是 这 
样 ， 那 么 从 六 到 站 就 有 劝 一 条 更 好 的 部 分 路 径 存在 ， 如 果 把 它 和 从 去 到 
TAU, 的 部 分 路 径 连 接 起 来 ， 束 会 形成 一 条 比 原来 的 路 径 更 优 的 路 径 ， 
这 是 矛盾 的 。 依 据 这 一 原理 ， 我 们 只 需 从 时 刻 t=1 开 始 ， 递 推 地 计算 在 
时 刻 t 状 态 为 的 各 条 部 分 路 径 的 最 大 概率 ， 直 至 得 到 时 刻 t= 了 状态 为 的 
各 条 路 人 径 的 最 大 概率 。 时 刻 t= 了 的 最 大 概率 即 为 最 优 路 径 的 概率 P，， 
最 优 路 径 的 终结 点 并 也 同时 得 到 。 之 后 ， 为 了 找 出 最 优 路 径 的 各 个 结 
尽 ， 从 终结 点 部 开始 ， 由 后 向 前 逐步 求 得 结 点 剖 4,…, 坟 ， 得 到 最 优 路 
r=, Gei). 这 束 是 维特 比 算法 。 


首先 导入 两 个 变量 5 和 。 定 义 在 时 刻 t 状 态 为 的 所 有 单个 路 径 (i  ，i 
,.…i) 中 概率 最 大 值 为 


We max EG, = U,i,_15°**5h50,5°°°50 | A), 2 (10.44) 


由 定义 可 得 变量 5 的 递 推 公式 : 


0 (= max P(i,,, =i,i,,°°°,4,50 


t +1? 


50, | 4) 
= max[d(/)a, ],(0,,,), i=1,2,---,N; ¢=1,2,---,T-1 (10.45) 


定义 在 时 刻 t 状 态 为 的 所 有 单个 路 径 (i | ，i2 ied 由 中 概率 最 大 的 路 径 
的 第 t-1 个 结 点 为 


y,(i) = arg max [ð (j)a;] » i=1,2,---,N (10.46) 
下 面 介绍 维特 比 算法 © 
算法 10.5 (维特 比 算法 ) 
输入 : 模型 4 =(A, BT ) 和 观测 O=(01，05,...,07); 
输出 : mE AL =", E,d). 
(1) 初始 化 


0,(i)=7,b(0,), i=1,2,,N 
y,(i)=0, fa TLZone 


(2) TRE ° Mt=2,3,...,T 
ô (i) = max [ð (J)a, ]b,(o,)， i=1,2,---,N 
y, (i) = arg max[0d,_,(/)4);] n LN 
EIEN í 


(3) 终止 


P* = max ô, (i) 
ir = arg max[6, (i)] 
(4) 最 优 路 径 回 溯 。 对 t= 工 1 工 2 
i = Wiss Ga) 
求 得 最 优 路 径 I* =E, Boi)’ 
下 面 通过 一 个 例子 来 说 明 维 特 比 算法 。 
例 10.3 ” 例 10.2 的 模型 4 =(A，B,7r )， 


OS 0.2. 023 0.5 0.5 
A=|0.3 0.5 02|, B=|04 0.6], 2=(0.2,0.4,0.4)' 
O.2 0:3. 0.3 0.7 0.3 


已 知 观测 序列 O = (20,020), ROCA SI, BU OCR = (i 


oe Oe 


解 ” 如 图 10.4 所 示 ， 要 在 所 有 可 能 的 路 径 中 选择 一 条 最 优 路 径 ， 按 照 
以 下 步骤 处 理 : 


状态 


0.01008 


N 


时 间 


图 10.4” 求 最 优 路 径 


a) 初始 化 。 在 t=1 时 ， 对 每 一 个 状态 i，i= 1,2,3， 求 状态 为 观测 o 1 
为 红 的 概率 ， 记 此 概率 为 6 G), M 


6()=25(0=26(0), i=1,2,3 
代入 实际 数据 
6(1)=0.10, 6(2)=0.16, 65,(3)=0.28 


WY (@)=0, i=1,2,3 ° 


(2) 在 t=2 时 ， 对 每 个 状态 it，i= 12,3， 求 在 t= 1 时 状态 为 j 观 测 为 红 
并 在 t= 2 时 状态 为 观测 o ,为 白 的 路 径 的 最 大 概率 ， 记 此 最 大 概率 为 6 ， 
(i), JU 


5,(i) = max [4,(j)a,,]8,(0;) 


同时 ， 对 每 个 状态 i，i=12,3， 记 录 概 率 最 大 路 径 的 前 一 个 状态 j: 
w(i) = arg max [0,(j)a,; | i=1,2,3 
ores 


计算 ; 
ô, (1) = max [8 (J)a; Jb (03) 
= max {0.10 x 0.5,0.16 x 0.3,0.28 x 0.2} x 0.5 
/ 


= 0.028 


y,(1)=3 
6,(2) =0.0504, y,(2)=3 
5,(3) =0.042, y,(3)=3 


同样 ， 在 t= 3 时 ， 


ô, (i) = max [ô (j)a ; lb; (03) 
w(i) = arg max [0,())a;] 
6, (1) = 0.00756, y,(1)=2 
6,(2) = 0.01008, y,(2)=2 
6,(3)=0.0147, y,(3)=3 


(3) 以 P :表示 最 优 路 径 的 概率 ， 则 
P= max 6; (i) = 0.0147 
最 优 路 径 的 终点 是 专 : 
i, = arg max [6,(i)] =3 
(4) FREAKS, HARI, i: 
fEt=2IN, i =y,(8)=y,(3)=3 
fEt=1N, if =y,(5)=y,(3)=3 
于 是 求 得 最 优 路 径 ， 即 最 优 状 态 序 列 [* = (2 i i) = (8,3,3) ° 
本 章 概 要 
1. 隐 马 尔 可 夫 模 型 是 关于 时 序 的 概率 模型 ， 插 述 由 一 个 隐藏 的 马尔 可 
夫 链 随机 生成 不 可 观测 的 状态 的 序列 ， 再 由 各 个 状态 随机 生成 一 个 观 
测 而 产生 观测 的 序列 的 过 程 。 


隐 马 尔 可 夫 模 型 由 初始 状态 概率 同 量 大 、 状 态 转移 概率 矩阵 A 和 观测 
概率 矩阵 B 决 是 。 因 此 ， 隐 马尔 可 夫 模 型 可 以 写成 4 =(A, BT) ° 


隐 马 尔 可 夫 模 型 是 一 个 生成 模型 ， 表 示 状 态 序 列 和 观测 序列 的 联合 分 
布 ， 但 是 状态 序列 是 隐藏 的 ， 不 可 观测 的 。 


隐 马 尔 可 夫 模 型 可 以 用 于 标注 ， 这 时 状态 对 应 着 标记 。 标 注 问 题 是 给 
定 观 测序 列 预 测 其 对 应 的 标记 序列 。 


2. 概率 计算 问题 。 给 定 模型 4 =(A, BZ ) 和 观测 序列 O=(o; 05 

,. .0OT)， 计 算 在 模型 4 下 观测 序列 O 出 现 的 概率 P(OI4 )。 前 向 -后 向 算 

人 
> ST o 


3. 学 习 问 题 。 已 知 观测 序列 O=(o; ，o,,…..,oT)， 估 计 模 型 14 =(A, 
BT ) 参 数 ， 使 得 在 该 模型 下 观测 序列 概率 P(Ol4 ) 最 大 。 即 用 极 大 似 然 
估计 的 方法 估计 参数 。Baum-Welch 算 法 ， 也 就 是 EM 算法 可 以 高 效 地 对 
隐 马 尔 可 夫 模 型 进行 训练 。 它 是 一 种 非 监 督学 习 算法 。 


4， 预 测 问题 。 已 知 模型 4 =(A，B, 克 ) 和 观测 序列 0=(o，，o .or 
)， 求 对 给 定 观测 序列 条 件 概率 Pdlo) 最 大 的 状态 序列 1= (it ，i ,jir 
)。 维特 比 和 法 应 用 动态 规划 高效 地 求解 最 优 路 径 ， 即 概率 最 大 的 状态 
FFI ° 


继续 阅读 


隐 马 尔 可 夫 模 型 的 介绍 可 见 文献 [1,2]， 特 别 地 ， 文 献 [1] 是 经 典 的 介绍 
性 论文 。 关 于 Baum-Welch 算 法 可 见 文献 [3,4]。 可 以 认为 概率 上 下 文 无 
关 文 法 (probabilistic context-free grammar) 是 隐 马 尔 可 夫 模 型 的 一 种 
推广 ， 隐 马尔 可 夫 模 型 的 不 可 观测 数据 是 状态 序列 ， 而 概率 上 下 文 无 
关 文 法 的 不 可 观测 数据 是 上 下 文 无 关 文法 树 [5]。 动 态 贝 叶 斯 网 络 

(dynamic Bayesian network) 是 定义 在 时 序数 据 上 的 贝 叶 斯 网 络 , 它 包 
含 隐 马尔 可 夫 模 型 ， 是 一 种 特例 。 


习题 
10.1 ”给 定 人 金子 和 球 组 成 的 隐 马 尔 可 夫 模 型 4 = (ABT), E, 
0.5 02 0.3 0.5 0.5 
A=|0.3 0.5 0.2], B=|0.4 0.6], z=(0.2,0.4,0.4)' 
0.2 03 0.5 0.7 0.3 


设 T=4，O=( 红 , 白 , 红 , 白 )， 试 用 后 向 算法 计算 P(Ol4)。 
10.2 ”考虑 盒子 和 球 组 成 的 隐 马 尔 可 夫 模 型 4 = (A,B, )， 其 中 ， 


0.5 0.1 04 0.5 0.5 
A=|0.3 0.5 0.2], B=|0.4 0.6], 2=(0.2,0.3,0.5)' 
02 2 06 0.7 0.3 


iT=8, O=(21,4,21,21,5,21,5,A), ABARAT RPG, =q, 
[0,4 ) ° 


10.3 7EJR10.17, WAAR RRA Si, B, B. G 
) o 

10.4 WA BRAS RE 

=F Y a iab On 50D)，r=12…,7-1 


i=l j=l 


10.5 ”比较 维特 比 算法 中 变量 8 的 计算 和 前 向 算法 中 变量 a 的 计算 的 主 


要 区 别 :。 
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注释 
(11, 按照 Q 画 数 的 定义 


QCA. A )=EIlogP(O, | AIO, Z 1 


st (10.33) 略 去 了 对 A 而 言 的 常数 因子 LP(O| J )。 


第 11 章 ”条 件 随机 场 


条 件 随机 场 (conditional random field,CRF) 是 给 定 一 组 输入 随机 变量 
条 件 下 另 一 组 输出 随机 变量 的 条 件 概 率 分 布 模型 ， 其 特点 是 假设 输出 
随机 变量 构成 马尔 可 夫 随 机 场 。 条 件 随 机 场 可 以 用 于 不 同 的 预测 问 
题 ， 本 书 仅 论 及 它 在 标注 问题 的 应 用 。 因 此 主要 讲述 线性 链 (dinear 
chain) 条 件 随机 场 ， 这 时 ， 问 题 变 成 了 由 输入 序列 对 输出 序列 预测 的 
判别 模型 ， 形 式 为 对 数 线性 模型 ， 其 学 习 方 法 通 利 是 极 大 似 然 估 计 或 
正则 化 的 极 大 似 然 估计 。 线 性 链条 件 随 机 场 应 用 于 标注 问题 是 由 
Lafferty 等 人 于 2001 年 提出 的 。 


本 章 首先 介绍 概率 无 向 图 模型 ， 然 后 叙述 条 件 随机 场 的 定义 和 各 种 表 
示 方 法 ， 最 后 介绍 条 件 随机 场 的 3 个 基本 问题 ， 概 率 计算 问题 、 学 习 问 
题 和 预测 问题 。 


11.1 ”概率 无 问 图 模型 


概率 无 问 图 模型 (probabilistic undirected graphical model) ， 又 称 为 马 
尔 可 夫 随 机 场 (Markov random field) ， 是 一 个 可 以 由 无 回 图 表示 的 联 
合 概率 分 布 。 本 节 首 移 叙 述 概率 无 问 图 模型 的 定义 ， 然 后 介绍 概率 无 
回 图 模型 的 因子 分 解 。 


11.1.1 ”模型 定义 


图 (graph) 是 由 结 点 (node) 及 连接 结 点 的 边 (edge) 组 成 的 集合 。 
结 点 和 边 分 别 记 作 v 和 e， 结 点 和 边 的 集合 分 别 记 作 V 和 E， 图 记 作 G= 
(VWE)。 无 回 图 十 指 边 没有 方 同 的 图 。 


概率 图 模型 (probabilistic graphical model) 是 由 图 表示 的 概率 分 布 。 设 
有 联合 概率 分 布 P(Y)，Yey 是 一 组 随机 变量 。 由 无 向 图 G=(VE) 表 示 
概率 分 布 P(Y)， 即 在 图 G 中 ， 结 点 ve V 表 示 一 个 随机 变量 Y、,，Y =(Y 、 
) ve V; 边 eeE 表 示 随 机 变量 之 间 的 概率 依赖 关系 。 


给 定 一 个 联合 概率 分 布 P(Y) 和 表示 它 的 无 向 图 G。 首先 定义 无 癌 图 表示 
的 随机 变量 之 间 存 在 的 成 对 马尔 可 夫 性 (pairwise Markov property) 、 
局 部 马尔 可 夫 性 (local Markov property) 和 全 局 马尔 可 夫 性 (global 
Markov property) 


BOTS RARE: 设 u 和 v 是 无 向 图 G 中 任意 两 个 没有 边 连 接 的 结 点 ， 结 
点 u 和 Vv 分 别 对 应 随机 变量 Y ,和 Y、。 其 他 所 有 结 点 为 O， 对 应 的 随机 变 
THEY o 。 成 对 马尔 可 夫 性 是 指 给 定 随 机 变量 组 Yu 的 条 件 下 随机 变 

EY FY ,是 条 件 独 立 的 ， 即 


PUY, ¥, |Y,)=P(Y, |Y,)P(Y, |Y,) (11.1) 


局 部 马尔 可 夫 性 ， 设 ve V 是 无 向 图 G 中 任意 一 个 结 点 ，W 是 与 v\ 有 边 连 
接 的 所 有 结 点 ，O 是 v，W 以 外 的 其 他 所 有 结 点 。v 表 示 的 随机 变量 是 Y 
，，W 表 示 的 随机 变量 组 是 Y w ，O 表 示 的 随机 变量 组 是 Y 。。 局 部 马尔 
可 夫 性 是 指 在 给 定 随机 变量 组 Y w 的 条 件 下 随机 变量 Y ,与 随机 变量 组 
Yo 是 独立 的 ， 即 


P(Y,,Y, | ¥y) = PUY, |Y,)P(Y, |Y,) (11.2) 


在 P(Y olYw)>0 时 ， 等 价 地 ， 
P(Y, |Y) = PY, [Yn Yo) (11.3) 
图 11.1 表 示 由 式 (11.2) 或 式 (11.3) 所 示 的 局 部 马尔 可 夫 性 。 


OW 
@oO 


图 11.1 局 部 马尔 可 夫 性 


全 局 马尔 可 夫 性 : 设 结 点 集合 A，B 是 在 无 向 图 G 中 被 结 点 集合 C 分 开 的 
任意 结 点 集合 ， 如 图 11.2 所 示 。 结 点 集合 A，B 和 C 所 对 应 的 随机 变量 组 
分 别 是 YA ，YB 和 Yc。 全 局 马尔 可 夫 性 是 指 给 定 随机 变量 组 Yc 条 件 
下 随机 变量 组 YA 和 Ye 是 条 件 独立 的 ， 即 


PYK [¥o) = Py | YPEY) (11.4) 


图 11.2 全 局 马尔 可 夫 性 


上 述 成 对 的 、 局 部 的 、 全 局 的 马尔 可 夫 性 定义 是 等 价 的 ma。 
下 面 定 义 概率 无 癌 图 模型 。 
定义 11.1 (概率 无 向 图 模型 ) ” 设 有 联合 概率 分 布 P(Y)， 由 无 向 图 G = 


(VE) 表 示 ， 在 图 G 中 ， 结 扣 表 示 随 机 变量 ， 边 表示 随机 变量 之 间 的 依赖 
关系 。 如 果 联 合 概率 分 布 PIY) 满 足 成 对 、 局 部 或 全 局 马尔 可 夫 性 ， 就 


称 此 联合 概率 分 布 为 概率 无 向 图 模型 (probability undirected graphical 
model) ， 或 马尔 可 夫 随 机 场 (Markov random field) 。 


以 上 是 概率 无 向 图 模型 的 定义 ， 实 际 上 ， 我 们 更 关心 的 是 如 何 求 其 联 
合 概率 分 布 。 对 给 定 的 概率 无 问 图 模型 ， 我 们 和 希望 将 整体 的 联合 概率 
写成 者 干 子 联合 概率 的 乘积 的 形式 ， 也 就 是 将 联合 概率 进行 因子 分 
解 ， 这 样 便于 模型 的 学 习 与 计算 。 事 实 上 ， 概 率 无 向 图 模型 的 最 大 特 
扩 束 是 易于 因 了 于 分 解 。 下 面 介 绍 这 一 结 琳 。 


11.1.2 ”概率 无 向 图 模型 的 因子 分 解 
首先 给 出 无 向 图 中 的 团 与 最 大 团 的 定义 。 


定义 11.2 ( 团 与 最 大 团 ) ”无 向 图 G 中 任何 两 个 结 点 均 有 边 连 接 的 结 点 
FRA (clique) 。 若 C 是 无 向 图 G 的 一 个 团 ， 并 且 不 能 再 加 进 任何 
ee 则 称 此 C 为 最 大 团 (maximal 
clique) ° 


图 11.3 表 示 由 4 个 结 点 组 成 的 无 回 图 。 图 中 由 2 个 结 点 组 成 的 团 有 5 个 : 
LY iy Yor LY 95 Y 3}, LY 3. Yuh; cer Y,} 和 {Y 1, Yaj A2 
TRAA: AY 75 Yo att yY oe Yo Yu} OMY 45 YoYa Ya 
是 一 个 团 ， 因 为 Y1 和 Y 4 没有 边 连接 。 


Y, Y» 


Y, Y, 


图 11.3 ”无 向 图 的 团 和 最 大 团 


将 概率 无 向 图 模型 的 联合 概率 分 布 表 示 为 其 最 大 团 上 的 随机 变量 的 函 
数 的 乘积 形式 的 操作 ， 称 为 概率 无 向 图 模型 的 因子 分 解 


(factorization) 。 


给 定 概率 无 向 图 模型 ， 设 其 无 向 图 为 G，C 为 G 上 的 最 大 团 ，Y 表示 C 
对 应 的 随机 变量 。 那 么 概率 无 向 图 模型 的 联合 概率 分 布 PIY) 可 写作 图 
中 所 有 最 大 团 C 上 的 函数 中-(Y vc) 的 乘积 形式 ， 即 


] 
P(Y) =—1 P(Y. (11.5) 
8 ar I] ites) 

其 中 ，Z 是 规范 化 因子 (normalization factor) ， 由 式 

ASAA (11.6) 
2S Ho HAFREN A aAA o KZ o (Y o ARHAR 
数 (potential function) 。 这 里 要 求 势 函数 下-(Yv) 是 严格 正 的 ， 通 常 定 
义 为 指数 函数 : 

Po (Yc) =exp{-E(Y.)} (11:7) 
概率 无 问 图 模型 的 因子 分 解 由 下 述 定理 来 保证 。 


定理 11.1 (Hammersley-Clifford 定 理 ) 概率 无 向 图 模型 的 联合 概率 
分 布 P(Y) 可 以 表示 为 如 下 形式 : 


PO) =>) 
Z=ST[¥%%) 
} G 


其 中 ，C 是 无 向 图 的 最 大 团 ，Yc 是 C 的 结 点 对 应 的 随机 变量 ,下 c(Yc) 
是 C 上 定义 的 严格 正 函 数 ， 乘 积 十 在 无 同 图 所 有 的 最 大 团 上 进行 的 。 


11.2 条件 随 机 场 的 定义 与 形式 
11.2.1 ”条件 随机 场 的 定义 


条 件 随 机 场 (conditional random field) 是 给 定 随 机 变量 X 条 件 下 ， 随 机 
变量 Y 的 马尔 可 夫 随 机 场 。 这 里 主要 介 绍 定 义 在 线 隆庆 上 的 特殊 的 条 < 件 
随机 场 ， 称 为 线性 链条 件 随 机 场 (linear chain conditional random 

field) 。 线 性 链条 件 随 机 场 可 以 用 于 标注 等 问题 。 这 时 ， 在 条 件 概 率 模 
型 P(Y|X) 中 ，Y 是 输出 变量 ， 表 示 标 记 序 列 ，X 是 输入 变量 ， 表 示 需 要 
标注 的 观测 序列 。 也 把 标记 序列 称 为 状态 序列 〈 参 见 隐 马 尔 可 夫 模 

AY) 。 学 习 时 ， 利 用 训练 数据 集 通 过 极 大 似 然 估 计 或 正则 化 的 极 大 似 
然 估 计 得 到 条 件 概率 模型 户 (Y|X);， 预测 时 ， 对 于 给 定 的 输入 序列 x， 求 
出 条 件 概率 户 (Y|X) 最 大 的 输出 序列 》。 


首先 定义 一 般 的 条 件 随机 场 ， 然 后 定义 线性 链条 件 随 机 场 。 


定义 11.3 (条 件 随机 场 ) ” 设 X 与 Y 是 随机 谈 量 ，P(Y|X) 是 在 给 定 X 的 
条 件 下 Y 的 条 件 概率 分 布 。 若 随机 变量 Y 构 成 一 个 由 无 癌 图 G== (VE) 表 
示 的 马尔 可 夫 随 机 场 ， 即 


P(Y | X,Y ,wzv)=P(Y | X,Y,,w~v) (11.8) 


对 任意 结 点 v 成 立 ， 则 称 条件 概 率 分 布 P(Y|X) 为 条 件 随 机 场 。 式 中 w~v 
表示 在 图 G=(VE) 中 与 结扎 V 有 边 连 接 的 所 有 结 点 WwW，wzxv 表 示 结 总 V 以 
SNIBT Aa, Yy. Yu 5Y, HARV, u 与 w 对 应 的 随机 变量 


在 定义 中 并 没有 要 求 X 和 Y 具 有 相同 的 结构 。 现 实 中 ， 一 般 假设 X 和 Y 
有 相同 的 图 结构 。 本 书 主要 考虑 无 癌 图 为 如 图 11.4 与 图 11.5 所 示 的 线性 
链 的 情况 ， 即 

G=(V ={1,2,--,n}, E={(i,i+)}), i=1,2,---,n-1 
在 此 情况 下 ，X= ie Xo.-5X,)) Y=(Y1, Yo. ¥,), BABA 
邻 两 个 结 点 的 集合 。 线 竹 链条 件 随机 场 有 下 面 的 定义 o 


$ È £ Y, 


X=(X p X», X.) 
图 11.4 “线性 链条 件 随机 场 


} 1 Y» Y; Fi 
z x y a 
图 11.5 X 和 Y 有 相同 的 图 结构 的 线性 链条 件 随机 场 


定义 11.4 (线性 链条 件 随机 场 ) ” 4X =(X,,Xp,...X,), Y=(Y1, Y 

),.… 丫 1) 均 为 线性 链表 示 的 随机 变量 序列 ， 若 在 给 定 随机 变量 序列 X 的 

i ee eer ey yeni eel 即 满 
ELAR A) KE 


PEIX YN 


Yas Y) = PEIX, Ya) 


l 
i=1,2,-,n 《在 i=1 和 nn 时 只 考虑 单 边 ) (11.9) 


则 称 P(Y|X) 为 线性 链条 件 随 机 场 。 在 标注 问题 中 ，X 表 示 输 入 观测 序 
列 ，Y 表 示 对 应 的 输出 标记 序列 或 状态 序列 。 


11.2.2 ”条件 随机 场 的 参数 化 形式 


根据 定理 11.1， 可 以 给 出 线性 链条 件 随 机 场 P(Y|X) 的 因 了 于 分 解 式 ， 各 因 
子 是 定义 在 相 邻 两 个 结 点 上 的 函数 。 


定理 11.2 (线性 链条 件 随机 场 的 参数 化 形式 ) ” 设 P(Y|X) 为 线性 链条 件 
随机 场 ， 则 在 随机 变量 Xx 取 值 为 x 的 条 件 下 ， 随 机 变量 Y 取 值 为 y 的 条 件 
概率 具有 如 下 形式 : 


l 
P(y|x)= a5" PaO) + Fason) (11.10) 
i,k il 


其 中 ， 


Z(x)= Dew Zas (VaV Xi) + Fuson) (11.11) 
y i,k i,t 


式 中 ，tk 和 si 是 特征 函数 ，4k 和 Ai 是 对 应 的 权 值 。Z(C9 是 规范 化 因 
子 ， 求 和 是 在 所 有 可 能 的 输出 序列 上 进行 的 。 


式 (11.10) 和 式 (11.11) 是 线性 链条 件 随机 场 模 型 的 基本 形式 ， 表 示 
给 定 输入 序列 x， 对 输出 序列 y 预 测 的 条 件 概率 。 式 (11.10) 和 式 
(11.11) 中 ty 是 定义 在 边 上 的 特征 函数 ， 称 为 转移 特征 ， 依 赖 于 当前 
和 前 一 个 位 置 ，s1 是 定义 在 结 点 上 的 特征 函数 ， 称 为 状态 特征 ， 依 赖 
于 当前 位 置 。tk 和 si 都 依赖 于 位 置 ， 是 局 部 特征 函数 。 通 常 ， 符 征 函 
数 tk 和 s1 取 值 为 1 或 0， 当 满足 特征 条 件 时 取 值 为 1， 否 则 为 0。 条 件 随 
机 场 完 全 由 特征 函数 ft ，s1 和 对 应 的 权 值 人 4， 1 确定 。 


线性 链条 件 随机 场 也 是 对 数 线性 模型 (log linear model) 。 
下 面 看 一 个 简单 的 例子 。 


例 11.1 iA PTE: 输入 观测 序列 为 X=(X1,X,,X)， 输 出 标 
记 序 列 为 Y=(Y]1，Y ,5,Y 3)，Y 1,Y 5,Y 3 取 值 于 ={12}。 


假设 特征 ty,s1 和 对 应 的 权 值 4 x41 如 下 : 


t =i =l, y; =2,.%,i), i=2,3, A=l 
这 里 只 广 明 符 征 取 值 为 1 的 条 件 ， 取 值 为 0 的 条 件 省 略 ， 即 


aah 1, Ya =ly, =2,x,i,(i = 2,3) 
1i- Y Xi) = 0, 其 他 


下 同 。 


t, =t,(y, =Ly, =1,x,2) A, =9.5 


t =t,(y, =2,y; =1,x,3) A, = 

t, =t,(y, =2, y, =1,x,2), A,=!1 

ts =t,(y, =2,y; =2,x,3) » A, =0.2 
Ss, =5,(y, =1,x,1); A = 

S, =S (y; =2,x,i), i=1,2 HM, =0.5 
S, =S, (y; =1,x,i), i=2,3 4 =0.8 
S, =S,(y; =2,x,3) » 4, =0.5 


对 给 定 的 观测 序列 x， 求 标记 序列 为 y= (yiy2y3)=(12,3) 的 非 规范 化 
条 件 概 率 〈 即 没有 除 以 规范 化 因子 的 条 件 概率 ) 。 


解 ” 由 式 (11.10) ， 线 性 链条 件 随机 场 模 型 为 


Pl(y | a) exp] DAD 2 (Vers Hest DL MEH 


对 给 定 的 观测 序列 x， 标 记 序 列 y= (12,2) 的 非 规范 化 条 件 概 率 为 
P(y =1, y, =2, y, =2|X)ccexp (3.2) E 


11.2.3 ”条 件 随机 场 的 简化 形式 


条 件 随 机 场 还 可 以 由 简化 形式 表示 。 注 意 到 条 件 随 机 场 式 (11.10) 中 
同一 特征 在 各 个 位 置 都 有 定义 ， 可 以 对 同一 个 特征 在 各 个 位 置 求 和 ， 
将 局 部 特征 函数 转化 为 一 个 全 局 特征 函数 ， 这 样 束 可 以 将 条 件 随 机 场 
写成 权 值 问 量 和 特征 同 量 的 内 积 形式 ， 即 条 件 随 机 场 的 催化 形式 。 


为 简便 起 见 ， 首 移 将 转移 特征 和 状态 特征 及 其 权 值 用 统一 的 符号 表 
示 。 设 有 K ; 个 转移 特征 ，K :> 个 状态 特征 ，K=K1+K>， 记 


ty PHD), k=1,2,.…,K, 


11.12 
SOX i) k=K +l;1=1,2,.…,K, pater 


大 | 


然后 ， 对 转移 与 状态 特征 在 各 个 位 置 i 求 和 ， 记 作 
fex) = PF (tA ei, Reale 
i=] 


用 wx 表示 特征 f(y,x) 的 权 值 ， 即 


A KE=L2,%E 
Ww, = 
* la, &=K,+hl=12,-,K, 
于 是 ， 条 件 随机 场 (11.11) ~ (11.12) 可 表示 为 


] 


P(y| x)= Z(x) 


j 
exp > wf, (yx) 
k=l 


Z(x)= 2. exp >: wf, (yx) 
y k=l 


A Awkar E æ, B 
W=(W, Wy, Wg)" 


以 F(y 区) 表示 全 局 特征 同 量 ， 即 
F(y,x) =(f,0.%), OX). Fe (x) 


则 条 件 随 机 场 可 以 写成 回 量 w 与 F(yz) 的 内 积 的 形式 : 


exp ( w-F(y, x)) 


P.(y|x)= EA) 


ELT , 
wR >_exp(w: F(y,x)) 


(11.13) 


(11.14) 


C1113) 


(11.16) 


(11.17) 


(11.18) 


(11.19) 


(11.20) 


11.2.4 条件 随机 场 的 矩阵 形式 


条 件 随机 场 还 可 以 由 和 矩阵 表示 。 假 设 P、(Y|X) 是 由 式 (11.15) ~ 
(11.16) 给 出 的 线性 链条 件 随机 场 ， 表 示 对 给 定 观测 序列 x， 相 应 的 标 
记 序 列 y 的 条 件 概 率 。 引 进 特殊 的 起 点 和 终点 状态 标记 yu = start, Yy 
=stop， 这 时 P 、(Y|X) 可 以 通过 和 矩阵 形式 表示 。 


对 观测 序列 x 的 每 一 个 位 置 i=1,2,...,n+1， 定 义 一 个 m 阶 矩阵 (m 是 标记 
y; 取 值 的 个 数 ) 
M (x)= [M,(y, si | x)] (11.21) 
M; (Yi V: | *) = exp(W, 1X: 1x)) (11.22) 
7 
W.-Y; |= WA) (11.23) 
k=l 


这 样 ， 给 定 观测 序列 x， 标 记 序列 y 的 非 规范 化 概率 可 以 通过 n+1 个 矩阵 
的 乘积 [ T M, OV |x) 表示 ， 于 是 ， 条 件 概率 P (YIX) 是 


n+l 


P (y| j= gl 6 (11.24) 


其 中 ，Z (Xx) 为 规范 化 因子 ， 是 n+1 个 矩阵 的 乘积 的 (start,stop) 元 素 : 


Z,,(x) =(M,(x)M,(x)---M,,,,(x)) (11.25) 


start stop 
IEE, yo = start 与 y N+1 = stop 表 示 开 始 状态 与 终止 状态 ， 规 范 化 因子 Z 
Ww(%) 是 以 start 为 起 点 stop 为 终点 通过 状态 的 所 有 路 径 y1y 3.….y ,的 非 规范 
化 概率 [ E M, Oai |x) 之 和 。 下 面 的 例子 说 明了 这 一 事实 。 


例 11.2 ”给 定 一 个 由 图 11.6 所 示 的 线性 链条 件 随机 场 ， 观 测序 列 x， 状 
人 态 序 列 y，i=1,2,3，n 二 3， 标 记 y; €{1,2}, Oy o =start=1, y,= 


stop 二 1， 各 个 位 置 的 随机 和 矩阵 Mj (x), M(x). M3(x), M (x) 分别 是 
M.(x)= Ay, Ao M,(x) = b, b 
wig D le d 


Ci C2 1 0 
mo, g | mw- 4 


试 求 状 态 序 列 y 以 start 为 起 点 stop 为 终点 所 有 路 径 的 非 规范 化 概率 及 规 
WAF ° 


解 ” 首 先 计 算 图 11.6 中 从 start 到 stop 对 应 于 y=(1,1,1),， y=(1,1,2)，...， 
y=(2,2,2) 各 路 径 的 非 规范 化 概率 分 别 是 
aoibiion ? AyD, C3» Ay D,>C>, d 001D2c2 


a Dici abC? Gob aban 


02 “2 


图 11.6 ”状态 路 径 


然后 按 式 (11.25) 求 规范 化 因子 。 通 过 计算 矩阵 乘积 M ] (x), M(x), 
M3(x)，M 4 (Xx) 可 知 ， 其 第 1 行 第 1 列 的 元 素 为 


aibi + Ay Dye taba + Queen 


bCa + GozpD2ocC5i 


+ aobiic + abC + ao 


01 


恰好 等 于 从 start 到 stop 的 所 有 路 径 的 非 规范 化 概率 之 和 ， 即 规范 化 因子 
Z(X)。 


11.3 条件 随 机 场 的 概率 计算 问题 


条 件 随机 上 场 的 概率 计算 问题 是 给 定 条件 随 机 场 P(Y|X)， 输 入 序列 x 和 输 
出 序列 y， 计 算 条 件 概率 P(Y,; =y), PY ;1 ~via Yi = 二 yj;|x) 以 及 相应 
的 数学 期 望 的 问题 。 为 了 方便 起 见 ， 像 隐 马 尔 可 夫 模 型 那样 ， 引 进 前 
向 向 量 ， 递归 地 计算 以 上 概率 及 期 望 值 。 这 样 的 算法 称 为 前 向 -后 
H A 9 


11.3.1 ”前 向 -后 向 算法 


对 每 个 指标 i= 0,1,...,n+1， 定 义 前 向 向 量 ai; (x): 
a,(y |x) = | (11.26) 
BESAN 
ar (y D =a Oa XM ay lx)» i=1,2,.…,n+1 (11.27) 
又 可 表示 为 
a; (x) = COJAM (x) (11.28) 


ai(yi|x) 表 示 在 位 置 的 标记 是 y; 并 且 到 位 置 的 前 部 分 标记 序列 的 非 规 
范 化 概率 ，y ;可 取 的 值 有 m 个 ， 所 以 ai(x) 是 m 维 列 向 量 。 


同样 ， 对 每 个 指标 i=0,1,...,n+1， 定 义 后 向 向 量 B; (x): 


fl, y=stop 

‘ oS io 7n DC 
Braa O n+l | x) \o, Ay 则 (] 1.29) 
By, |) =M; is Yia | OB Oi |) (11.30) 


又 可 表示 为 


Px) =M a Oa (x) (11.31) 


Bi(yi|x) 表 示 在 位 置 的 标记 为 y; 并 且 从 i+1 到 n 的 后 部 分 标记 序列 的 非 规 
范 化 概率 。 


由 前 向 -后 向 向 量 定义 不 难得 到 
Z(x) =a} (x)-1=1" + B(x) 
这 里 ，1 是 元 素 均 为 1 的 m 维 列 向 量 。 
11.3.2 ”概率 计算 


按照 前 向 -后 向 向 量 的 定义 ， 很 容易 计算 标记 序列 在 位 置 是 标记 y ;的 条 
件 概率 和 在 位 置 -1 与 是 标记 y 1 和 y ;的 条 件 概率 ; 


a (y, |x)B,(y, |x) 


PY, =y, | x) = Z( 5 


(11.32) 


T 
_ % Vi [OM Vi Vi | OBO 1) 


P(Y ,=y „Y = y, x 
(Y-i -i-l P | ) Z(x) 


(11.33) 


其 中 ， 
Z(x) =a) (x)+1 


11.3.3 ”期 望 值 的 计算 


利用 前 向 -后 向 向 量 ， 可 以 计算 特征 函数 关于 联合 分 布 P(X,Y) 和 条 件 分 
布 P(Y|X) 的 数学 期 望 。 


RPE ERE, 关于 条 件 分 布 P(Y|X) 的 数学 期 望 是 


Enyx lh] = >》 POOL (y, x) 
= E . aa a (DM, Yi Vi 1V 1x) 
5È D A Oroi) 2Zx) 
天 三 1 2 天 (11.34) 
其 中 ， 
Z(x) =a! (x)-1 


假设 经 验 分 布 为 天 CO， 特 征 画 数 fk 关于 联合 分 布 PCXY) 的 数学 期 望 是 
n+l 
Enx Al EPELA OVX) 
=F PAF POIDS SOY i) 
x ¥ i=l 


EFIR n Aa Oia | XM, O V: 11x) 
AOD LAGo ha a 


k =1,2,---,K (11.35) 
其 中 ， 
Z(x) =a) (x)+1 


式 (11.34) 和 式 (11.35) 是 特征 函数 数学 期 望 的 一 般 计 算 公 式 。 对 于 
转移 特征 ty (yi1yy i,X，)，k 三 1,2,…,K1， 可 以 将 式 中 的 f1 换 成 ty ; 对 
于 状态 特征 ， 可 以 将 式 中 的 f1 换 成 s;， 表 示 为 sj(y;,，x, i), k=Ky 
aly |=1,2,...,K,° 


ATA (11.32) 一 式 (11.35) , 对 于 给 Dee ae 列 x 与 标记 序列 y， 
可 以 通过 一 次 前 向 扫描 计算 a; 及 Z(x)， 通 过 一 次 后 向 扫描 计算 B;， 从 而 
计算 所 有 的 概率 和 特征 的 期 望 。 


11.4 ”条件 随机 场 的 学 习 算法 


本 节 讨 论 给 定 训练 数据 集 估 计 条 件 随 机 场 模型 参数 的 问题 ， 即 条 件 随 

机 场 的 学 习 问 题 条 件 随机 场 模型 实际 上 是 定义 在 时 序数 据 上 的 对 数 

线形 模型 ， 学 习 方 ; 去 包括 极 大 似 然 估 计 和 正则 化 的 极 大 似 然 估 计 。 

BIRR REE aR R ICE 法 IIS、 梯 度 下 降 法 以 及 拟 牛 顿 
去 (参阅 附录 A 和 附录 B) 。 


11.4.1 ”改进 的 迭代 尺度 法 


己 知 训练 数据 集 ， 由 此 可 知 经 验 概率 分 布 5 (X,Y)。 可 以 通过 极 大 化 训 
练 数据 的 对 数 似 然 画 数 来 求 模型 参数 。 


训练 数据 的 对 数 似 然 函 数 为 

L(w)=L,(P,) =log] [BO = > P(x, y) log P,(y| x) 
当 P ,是 一 个 由 式 (11.15) 和 式 (11.16) 给 出 的 条 件 随 机 场 模型 时 ， 对 
BULA BY 


L(w) = DPC y)logP (y| x) 


> (x. oy JOR P(x, y)logZ, om| 


k=l 
K 


ea 


WAY X) $'logZ, (x;) 


k=] j=l 


j= 


BOFINK R EIR RA TIE ABT LT OI A EB SF 
界 ， 达 到 极 大 化 对 数 似 然 画 数 的 目的 。 假 设 模 型 的 当前 参数 向 量 为 w = 
(Wjw 5,.….,Wk)"， 问 量 的 增 量 为 8 =(6 1,6 ,,..…,6 (.)"， 更 新 参数 癌 量 
为 w+8 =(w1td 1 ,W216 2,- WKt8 k)" ° 在 每 步 渤 代 过 程 中 ， 改进 的 
迭代 尺度 法 通过 依次 求解 式 (11.36) 和 式 (11.37) ， 得 到 5 =(6 1,6 ， 
.Gk)r。 推 导 可 参考 本 书 6.3.1 节 。 


关于 转移 特征 ty 的 更 新 方程 为 


n+l 
Bt] SAPE kO 
X, y i=l 


A n+l 
= >. P(x)P(y | x)>t, (YY: X i)exp(ó,T (x, y)) 
x.) i=l 
k =1,2,---,K, 


于 状态 特征 ls 的 更 新 方程 为 
a n+l 
E;Ís, |= > r(x. y)> S Oi) 
xX.) i=l 
一 > P(x)P(y | xD: 5, (y,,x,2) exp(dx at (Xa 3) 
x.) i=l 
/ =1,2,---,K, 


ZE, TETEZI P EMA PES AM : 


K n+l 
T(x, y= DAOD= VDA Mi) 
k k= 


lel 


算法 11.1 (条 件 随 机 场 模 型 学 习 的 改进 的 迭代 尺度 法 ) 


(11.36) 


(11.37) 


(11.38) 


输入 : 特征 图 数 t1 ,t2,...,tk ，s1,52,.…5SK,; 经 验 分 布 B (X,Y); 


输出 : 参数 估计 值 w ; 模型 P y o 
(1) 对 所 有 ke{1,2,...,K}， 取 初 值 w ,=0 
(2) 对 每 一 ke{1,2,...,K}: 


(a) 4k=1,2,..,.K, 5, SS LEDTE 


n+] 


POPO DD t; iis 8) exp(d, T(x, ¥)) = Elt] 
x,¥ j=] 


的 解 ; 


4k=K,4, 1=1,2,..,.K hf, 6K 是 方程 
> P(x) P(y|x)>_ 5,(7;,%, 1) exp(Sx. .. T(x, y)) = Ep[5,] 
x.y i=l 


的 解 ， 式 中 T(x,y) 由 式 (11.38) 给 出 。 
(b) 更 新 w | 值 : wk 一 wkr+O 
(3) 如 果 不 是 所 有 wk 都 收敛 ， 重 复 步 又 (2)。 


在 式 (11.36) 和 式 (11.37) 中 ，T(x,y) 表 示 数 据 (X,Y) 中 的 特征 总 数 ， 
对 不 同 的 数据 (X,Y) 取 值 可 能 不 同 。 为 了 处 理 这 个 问题 ， 定 义 松 弛 特征 
s(x,y)=S- ye: CERAR (11.39) 

ial k=l 
式 中 S 是 一 个 单数 。 选 择 足 够 大 的 常数 $ 使 得 对 训练 数据 集 的 所 有 数据 
(X,Y)，s(X,Y)>0 成 立 。 这 时 特征 总 数 可 取 S。 


由 式 (11.36) ， 对 于 转移 特征 tk ，6 4 的 更 新 方程 是 


:3 n+l 
> POPO |x), (4-45.9;.%.1) exp(6,S) = E;[t, ] (11.40) 
ry i=l 


ô. = —l]log ~ (11.41) 


其 中 ， 


rx n+l T : Fy: 
EDEPOL D hOp A E ee ila Ze DAOI 41.42) 


同样 由 式 (11.37) ， 对 于 状态 特征 sl ，6 4 的 更 新 方程 是 


Y POP D 50.8 i expC, 5) = Esls,] (11.43) 


ms E;[s,] 
Ox. = 5 BF Is] (11.44) 
其 中 
n T. 
Ex(6)= POLL VAR Ana (11.45) 


以 上 算法 称 为 算法 S$。 在 算法 S 中 需要 使 常数 S 取 足够 大 ， 这 样 一 来 ， 
步 迭 代 的 增 量 向 量 会 变 大 ， 算 法 收 人 约会 变 慢 。 算 法 T 试 图 解决 这 个 问 
题 。 算 法 T 对 每 个 观测 序列 x 计算 其 特征 总 数 最 大 值 T(x): 

T(x)= max T(x,y) (11.46) 
利用 前 问 -后 同 弟 推 公 式 ， 可 以 很 容易 地 计算 T(x)=t。 
这 时 ， 关 于 转移 特征 参数 的 更 新 方程 可 以 写成 : 


3 n+l 
Es[t,]= $ P(x)P(y| x) >t, (9 ,x,i)exp(6.T(x)) 


= n+l 
= P(x) PO | x) dt, O- Yxi exp(d, T(x) 


= > P(x)a, , exp(0, .1) 


max 


=)» ab; (11.47) 


这 里 ，akt 是 特征 tk 的 期 待 值 ，8k =logB, ° Bx 是 多 项 式 方程 (11.47) 
唯一 的 实 根 ， 可 以 用 牛顿 法 求 得 。 从 而 求 得 相关 的 5k。 


同样 ， 关 于 状态 特征 的 参数 更 新 方程 可 以 写成 : 


Esls,]= $ POPO x)> 5, Vx, i) exp(dq, ,T(x)) 
x) isl 


= F POS POLOS s, Vx, i) expe ,T(x)) 
x y j=l 


= >》 P(x, exp(0, +f) 


ore 
=> by (11.48) 


t=0 


这 里 ，bit 是 特征 si 的 期 望 值 ， 81 =1log81，81 是 多 项 式 方程 (11.48) 
唯一 的 实 根 ， 也 可 以 用 牛顿 法 求 得 。 


11.4.2” 拟 牛顿 法 


条 件 随 机 场 模型 学 习 还 可 以 应 用 牛顿 法 或 拟 牛顿 法 (参阅 附录 B) 。 对 
于 条 件 随 机 场 模 型 


op [> w, f(x, ») 


i=l 
x. exp | w, f(x, ») 
v i=l 


JWE H ink We 


P.(y|x)= (11.49) 


min f(w)= >! Poleo $ w f(x, ») -F yS whey) (11.50) 


HAREK 
g(w) = > POP, O Sy) -EE;(f) (11.51) 


拟 牛 顿 法 的 BFGS 算 法 如 下 。 
算法 11.2 (条 件 随机 场 模 型 学 习 的 BFGS 算 法 ) 


输入 : 特征 函数 f ,ff 经 验 分 布 5 (X,Y); 
输出 ， 最 优 参 数值 Ww ;最 优 模 型 P (YIX) 。 


(1) 选 定 初始 点 w® ， 取 B "为 正定 对 称 和 矩阵 ， 置 k=0 

(2) 计算 gk =g(w")。 若 gy 二 0， 则 信 止 计算 ; BMF (3) 
(3) 由 Bkpk 三 -gxk 求 出 pr 

(4) 一 维 搜索 : KZ 使 得 


(k) 


f(W” +4 p= min f(w +Ap,) 
(5) Ew =w®+4 Pk 
(6) 计算 gxki =g(we)， 若 gk=0， 则 停止 计算 ;否则 ， 按 下 式 求 出 B 


Teo aT ~ 
Vy Ôr ô, Bo, 


其 中 ， 
V= Er 8 =W =W 
(7) 置 k=k+1, 转 (3) ° 
11.5 ”条件 随机 场 的 预测 算法 


条 件 随机 场 的 预测 | 是 题 是 给 定 条 件 随机 场 PCY|X) 和 输入 序 列 (观测 序 
列 ) x 求 条 件 概率 最 大 的 输出 序列 (标记 序列 ) y* ， 即 对 观测 序列 进 
fre 。 条 件 随机 场 的 预测 算法 是 著名 的 维特 比 算法 (参阅 本 书 10.4 
Td O 


由 式 (11.19) 可 得 : 


k ze 

注意 
JD 5 

BM o 


其 中 ， 


y =argmax P (y |x) 
exp(w- F(y,x)) 
Z (x) 
= arg max exp(w. F(y,x)) 


= arg max 
y 


= arg max(w. F(y,x)) 


， 条 件 随机 场 的 预测 问题 成 为 求 非 规范 化 概率 最 大 的 最 优 路 径 问 


max (w. F(y,x)) (11.52) 


， 路 径 表 示 标 记 序 列 。 其 中 ， 


W = (W,W,,…, We y: 

F(y, x) = (f, (y, x), fs (y, x), Para Jè (y, x))' 

Si (y, x) z > Ji Da 3 J; ? X, i), k = l, 2, sa K 
i=l 


这 时 只 需 计算 非 规范 化 概率 ， 而 不 必 计 算 概 率 ， 可 以 大 大 提高 
为 了 求解 最 优 路 径 ， 将 式 (11.52) 写成 如 下 形式 : 


max >: We F (yy,,X) (11.53) 


i=l 


EPa Veg LUNs ants Ucn ie Male fd ae iy)" 
是 局 部 特征 向 量 。 
1 。 百 移 求 出 位 置 1 的 各 个 标记 j=12,….m 的 非 规范 


(j) = we F (y =Start,y, =j,x)> jf =1,2,-++,m (11.54) 


一 般 地 ， 由 递 推 公式 ， 求 出 到 位 置 i 的 各 个 标记 1= 12,….am 的 非 规范 化 
概率 的 最 大 值 ， 同 时 记录 非 规范 化 概率 最 大 值 的 路 径 


ô (l) = max (O(N +w Fy =y =Lx)} > [=1,2,.…,m (11.55) 


= j,y, =1,x)}, l=1,2,.…,m (11.56) 


Y (/) =arg max {OJ +w EOY 
直到 i=n 时 终止 。 这 时 求 得 非 规 范 化 概率 的 最 大 值 为 
max(w- F'(y,x)) = max 0, (j) (11.57) 
y sjam 
及 最 优 路 径 的 终点 


y, =arg max ô, (j) (11.58) 


由 此 最 优 路 径 终点 返回 ， 
六 = 更 Oa), i=n-l,n—2,...,l (11.59) 
求 得 最 优 路 径 y SOY oyi) 
综 上 所 述 ， 得 到 条 件 随机 场 预 测 的 维特 比 算法 : 
算法 11.3 (条 件 随 机 场 预测 的 维特 比 算法 ) 


输入 : 模型 特征 向 量 F(y,x) 和 权 值 向 量 w， 观 测序 列 x==(xj ，X2,...,X, 
); 


输出 ， 最 优 路 径 y* = Yzy). 
(1) 初始 化 
Oj)=w F =start, y =j,x); j=1,2,,m 
(2) RHE ° Mi=2,3,...n 


0,(1) = max {0,_,(j) + weF(y_,=J),y, =fx)} > 1=1,2,--+,m 
¥ (J) = arg max {d, (D+w Fy =j, y =1x)}> l=1,2,…,m 
(3) 终止 
max(w- F(y,x)) = max oO (j) 
y, = arg TER Ô, (J ) 
(4) 返回 路 径 
y= G: t=n-1n-2,---,1 

求 得 最 优 路 径 y* = Oe ge gt)? 
下 面 通 过 一 个 例子 说 明 维特 比 算法 。 


例 11.3 ”在 例 11.1 中 ， 用 维特 比 算法 求 给 定 的 输入 序列 (观测 序列 ) x 
对 应 的 最 优 输出 序列 (标记 序列 ) y* =(y? yy). 


EO 特征 函数 及 对 应 的 权 值 均 在 例 11.1 中 给 出 。 
现在 利用 维特 比 算法 求 最 优 路 径 问 题 : 
max ~ We Fy, 49 AE 
(1) 初始 化 
(j) = we Fi (y = Start, y =j,x), j=1,2 


i=l, ô (1)=1, ô (2)=0.5. 


i=2 ô, (l) = max{ô (j) + w+ F,(/,/,x)} 

ô, (1) = max {1 +A,t,,0.5+A,t,};=16, Y (1) =1 

ô, (2) = max {1+ At, + 44,8,,0.5+ s45,}=2.5, %(2)=1 
j=3 6, (1) = max {6d,(j) + w+ F,(j,/,x)} 

0,(1)= AE P HUS 2.9 tA, + hS, =4.3; P=2 


ô, (2) = max{1.6 + At, + £45,,2.5+ At, + MyS,}=3.2, Y(2)=1 
(3) 终止 
max(w.» F(y,x)) = max ô (1) = ô (1) = 4.3 


y, =arg max 6,(/) =1 


(4) 返回 
y =%(93) =%() =2 
y =¥,(y,)=4%Q)=1 
最 优 标记 序列 
y =(Vi V33) = (0,2,1) 时 


本 章 概要 


1. 概率 无 向 图 模型 是 由 无 向 图 表示 的 联合 概率 分 布 。 无 向 图 上 的 结 抬 
之 间 的 连接 关系 表示 了 联合 分 布 的 随机 变量 集合 之 间 的 条 件 独立 性 ， 
即 马 尔 可 夫 性 。 因 此 ， 概 率 无 向 图 模型 也 称 为 马尔 可 夫 随 机 场 。 


概率 无 向 图 模型 或 马尔 可 夫 随 机 场 的 联合 概率 分 布 可 以 分 解 为 无 向 图 
最 大 团 上 的 正 值 丽 数 的 乘积 的 形式 。 


2. 条 件 随机 场 是 给 定 输入 随机 变量 X 条 件 下 ， 输 出 随机 变量 Y 的 条 件 
概率 分 布 模型 ， 其 形式 为 参数 化 的 对 数 线性 模型 。 条 件 随 机 场 的 最 大 
特点 是 假设 输出 变量 之 间 的 联合 概率 分 布 构成 概率 无 问 图 模型 ， 即 马 
尔 可 夫 随 机 场 。 条 件 随 机 场 是 判别 模型 。 


3. 线性 链条 件 随 机 场 是 定义 在 观测 序列 与 标记 序列 上 的 条 件 随 机 场 。 
线性 链条 件 随 机 场 一 般 表 示 为 给 定 观 测序 列 条 件 下 的 标记 序列 的 条 件 
概率 分 布 ， 由 参数 化 的 对 数 线性 模型 表示 。 模 型 包含 特征 及 相应 的 权 
ER o 线性 链条 件 随机 场 的 数学 
ENE 


l à ; - 
P(y|x)=- wp| > AY 55 ¥i X51) + > as rd 
Z(x) i,k il 


NI 
/ 
=r 


Z(x) = Dew A EO Ist > ms nad 
y i,k i,l 


4. 线性 链条 件 随 机 场 的 概率 计算 通常 利用 前 向- 后 向 算法 。 


5. 条 件 随 机 场 的 学 习 方法 通常 是 极 大 似 然 佑 计 方 法 或 正则 化 的 极 大 似 
然 估 计 ， 即 在 给 定 训 练 数据 下 ， 通 过 极 大 化 训练 数据 的 对 数 似 然 函数 
ata 。 具体 的 算法 有 改进 的 迭代 尺度 算法 、 梯 度 下 降 法 、 

; 项 法 等 。 


6. 线性 链条 件 随机 场 的 一 个 重要 应 用 是 标注 。 维 特 比 算法 是 给 定 观测 
序列 求 条 件 概 率 最 大 的 标记 序列 的 方法 。 


继续 阅读 
关于 概率 无 向 图 模型 可 以 参阅 文献 [1,2]。 关 于 条 件 随机 场 可 以 参阅 文 
献 [3,4]。 在 条 件 随 机 场 提 出 之 前 已 有 最 大 入 马 尔 可 夫 模 型 等 模型 被 捉 
出 外 。 条 件 随 机 场 可 以 看 作 是 最 大 炉 马 尔 可 夫 模 型 在 标注 问题 上 的 推 
三。 文 持 癌 量 机 模型 也 说 推广 到 标注 问题 上 * o 
习题 
11.1 写 出 图 11.3 中 无 向 图 描述 的 概率 图 模型 的 因子 分 解 式 。 


11.2 证明 Z(x)=@&T (x):1==17:B 1(x)， 其 中 1 是 元 素 均 为 1 的 m 维 列 向 


11.3 写 出 条 件 随机 场 模型 学 习 的 梯度 下 降 法 。 
11.4 参考 图 11.6 的 状态 路 径 图 ， 假 设 随 机 矩阵 M 00, M0). M3 


(CX)，M4 (CX) 分 别 是 


0 O ue: Dy 
m=] | m0)-| | 
0.5 0.5 0.7 0.3 


Ma) 0.5 0.5 M 0 4 
MAX) = , i X)= 
a 0.6 0.4 i 0 1 


求 以 start= 2 为 起 点 stop 三 2 为 终点 的 所 有 路 径 的 状态 序列 y 的 概率 及 概 


率 最 大 的 状态 序列 。 
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第 12 章 ”统计 学 习 方法 总 结 


本 书 共 介绍 了 10 种 主要 的 统计 学 习 方法 : 感知 机 、k 近 邻 法 、 朴 素 贝 叶 
斯 法 、 决 筑 树 、 逻 辑 斯 请 回归 与 最 大 条 模 型 、 文 持 癌 量 机 、 提 升 方 
法 、EM 算 法 、 隐 马尔 可 夫 模 型 和 条 件 随机 场 。 这 10 种 统计 学 习 方 法 的 
特点 概括 总 结 在 表 12.1 中 。 


表 12.1 10 种 统计 学 习 方 法 特点 的 概括 总 结 


方法 ”| 适用 问题 | 模型 特点 | 模型 类 型 pri 学 习 算法 

感知 机 ” ”| 二 类 分 类 ”| 分 离 超 平 而 | 判别 模型 | 极 小 化 误 分 点 | 误 分 点 到 | 随机 梯度 下 降 
到 超 平面 距离 i 平面 焉 

KERI: FRIR. EEN, NAAN 

可 归 点 


朴素 贝 叶 斯 | 多 类 分 类 与 类 别 | 生成 模型 | 极 大 似 然 估 | 对 数 似 然 | 概率 计算 公式 ， 
法 联合 概率 -， 极 大 后 验 | 损失 。 |EM 算法 


决策 树 多 类 分 类 ， 对 数 似 然 | 特征 选择 ， 生 
[ea] pj 似 然 估计 me, OYE 
逻辑 斯 诺 回 | 多 类 分 类 | 特征 条 件 下 改进 的 迭代 尺 
HRK 类 别 的 条 件 度 算法 ， 梯 度 
模型 概率 分 布 , 对 下 降 ， 拟 牛顿 


数 线形 模型 法 


支持 向 量 机 | 二 类 分 类 | 分 离 超 平 面 , | 判别 模型 | 极 小 化 正则 化 | 合 页 损失 | 序列 最 小 最 优 
核 技 巧 合 页 损失 ， 软 化 算法 (SMO) 

间隔 最 大 化 
提升 方法 类 分 类 ”| 弱 分 类 器 的 | 判别 模型 | 极 小 化 加 法 模 | 指 数 损失 ”| 前 向 分 步 加 法 
$ 型 的 指数 损失 算法 


EM 算法 ” 极 大 似 然 估 | 对 数 似 然 | 迭代 算法 
计 ， 极 大 后 验 | 损失 
概率 估计 


隐 马 尔 可 夫 | 标 注 
模型 


条 件 随 机 场 | 标注 PR A SE AD TARR 

度 算 法 ， 梯 度 
下 降 ， 拟 牛顿 
法 


@ FEM 算法 在 这 里 有 些 特殊 ， 它 是 个 一 般 方法 ， 不 具有 具体 模型 。 

下 面 对 各 种 方法 的 特点 及 其 关系 进行 简单 的 讨论 。 

1. 适用 问题 

本 书 主要 介绍 监督 学 习 方法 。 监 督学 习 可 以 认为 是 学 习 一 个 模型 ， 使 
它 能 对 给 定 的 输入 预测 相应 的 输出 。 监 督学 习 包括 分 类 、 标 注 、 回 


归 。 本 书 主要 考虑 前 两 者 的 学 习 方 法 。 分 类 问题 是 从 实例 的 特征 同 量 
到 类 标记 的 预测 问题 ， 标 注 问 题 是 从 观测 序列 到 标记 序列 (或 状态 序 


列 ) 的 预测 问题 。 可 以 认为 分 类 问题 是 标注 问题 的 特殊 情况 。 分 类 问 
古 中 可 能 的 预测 结 琳 十 二 类 或 多 类 。 而 标注 问题 中 可 能 的 预测 结果 是 
所 有 的 标记 序列 ， 其 数目 是 指数 级 的 。 


感知 机 、k 近 邻 法 、 朴 素 贝 叶 斯 法 、 决 策 树 、 逻 辑 斯 详 回 归 与 最 大 彤 模 
型 、 文 持 癌 量 机 、 提 升 方法 是 分 类 方法 。 原 始 的 感知 机 、 文 持 向 量 机 
以 及 提升 方法 是 针对 二 类 分 类 的 ， 可 以 将 它们 扩展 到 多 类 分 类 。 隐 己 
尔 可 夫 模 型 、 条 件 随机 场 是 标注 方法 。EM 算 法 是 含有 隐 变 量 的 概率 模 
型 的 一 般 学 习 算 法 ， 可 以 用 于 生成 模型 的 非 监督 学 习 。 


感知 机 、k 近 邻 法 、 朴 素 贝 叶 斯 法 、 决 策 树 是 简单 的 分 类 方法 ， 具 有 模 
型 直观 、 方 法 商 单 、 实 现 容易 等 等 点。 逻辑 斯 详 回 归 与 最 大 烂 模型 、 
支持 向 量 机 、 提 升 方法 是 更 复杂 但 更 有 效 的 分 类 方法 ， 人 往往 分 类 准确 
率 更 高 。 隐 马尔 可 夫 模 型 、 条 件 随机 场 是 主要 的 标注 方法 。 通 常 条 件 
随机 场 的 标注 准确 率 更 高 。 


2. 模型 


分 类 问题 与 标注 问题 的 预测 模型 部 可 以 认为 是 表示 从 输入 空间 到 输出 
空间 的 映射 。 它 们 可 以 写成 条 件 概率 分 布 PCYIX) 或 决策 男 数 Y=f(X) 的 
形式 。 前 者 表示 给 定 输入 条 件 下 输出 的 概率 模型 ， 后 者 表示 输入 到 输 
出 的 非 概率 模型 。 有 了 时， 模型 更 直接 地 表示 为 概率 模型 ， 或 者 非 概率 
模型 ， 但 有 时 模型 兼 有 两 种 解释 。 


朴 聂 贝 叶 斯 法 、 隐 马尔 可 夫 模 型 是 概率 模型 。 感 知 机 、k 近 邻 法 、 文 持 
各 量 机 、 提 升 方 法 古 非 概率 模型 。 而 决策 树 、 逻 辑 斯 谤 回归 与 最 大 们 
模型 、 条 件 随 机 场 既 可 以 看 作 是 概率 模型 ， 又 可 以 看 作 是 非 概 率 模 


型 。 


直接 学 习 条 件 概 率 分 布 P(Y|X) 或 决策 函数 Y==f(X) 的 方法 为 判别 方法 ， 

对 应 的 模型 是 判别 模型 。 感 知 机 、k 近 邻 法 、 决 策 树 、 逻 辑 斯 席 回 归 与 
最 大 烂 模型、 文 持 向 量 机 、 提 升 方法 、 条 件 随机 场 古 判别 方法 。 首 先 

学 习 联 合 概 率 分 布 P(X,Y)， 从 而 来 得 条 件 概 率 分 布 P(Y|X) 的 方法 是 生成 
方法 ， 对 应 的 模型 是 生成 模型 。 朴 素 贝 叶 斯 法 、 隐 马尔 可 夫 模 型 生生 

成 方法 。 图 12.1 给 出 部 分 模型 之 间 的 关系 。 


可 以 用 非 监督 学 习 的 方法 学 习 生 成 模型 。 具 体 地 ， 应 用 EM 算法 可 以 学 
习 朴素 贝 叶 斯 模型 以 及 隐 马 尔 可 夫 模 型 。 


决策 树 是 定义 在 一 般 的 特征 空间 上 的 ， 可 以 含有 连续 变量 或 离散 变 

量 。 感 知 机 、 文 持 回 量 机 、K 近 邻 法 的 特征 空间 是 欧 氏 空间 (更 一 般 
地 ， 是 希 尔 伯 特 空间 ) 。 提 升 方法 的 模型 是 弱 分 类 器 的 线性 组 合 ， 弱 
分 类 楷 的 符 征 空间 就 古 提 升 方法 模型 的 符 征 空 间 。 

感知 机 模型 是 线性 模型 ， 而 逻辑 斯 谤 回归 与 最 大 烂 模型 、 条 件 随 机 场 
是 对 数 线性 模型 。k 近 邻 法 、 决 策 树 、 文 持 向 量 机 (BRR ` te 
升 方法 使 用 的 是 非 线性 模型 。 

图 12.1 从 生成 与 判别 、 分 类 与 标注 两 个 方面 描述 了 儿 个 统计 学 习 方 法 之 
间 的 关系 。 


生成 对 判别 “「 逻辑 斯 详 回 


下 素 贝 叶 斯 法 
Kb ae WUT RE: Si ty 


分 类 对 标注 分 类 对 标注 


| 


oa 


隐 马 尔 可 夫 生成 对 判 


模型 


图 12.1 ”部 分 模型 之 间 的 关系 


3. 学 习 策 略 


在 二 类 分 类 的 监督 学 习 中 ， 文 持 癌 量 机 、 人 逻辑 斯 谤 回归 与 最 大 信 标 
型 、 提 升 方法 各 目 使 用 合 页 损失 函数 、 逻 辑 斯 席 损 失 画 数 、 指 数 损失 
函数 。3 种 损失 函数 分 别 写 为 


[1 一 芒 (xz)]， (12.1) 
log[1 + exp(—yf(x))] (12.2) 
exp(—yf(x)) (12.3) 


ASFA AP 0-1 ARR LA, BAIA, o0A12.2Fr 
Ioe PRL, TUAANA ENS ROR. HEFL 
方法 使 用 不 同 的 代理 损失 函数 (surrogate loss function) 表示 分 类 的 损 


R, RE EBA XM Bor BE Be BB, SEE SRP RAVE © EO AY 
策略 十 优化 以 下 结构 风险 函数 : 


.1 
min NO FO) +AJ(f) (12.4) 


这 里 ， 第 1 项 为 经 验 风 险 (经 验 损失 ) ， 第 2 项 为 正则 化 项 ，L(Y,f(X)) 为 
损失 画 数 ，J(f) 为 模型 的 复 洒 度 ，4 >0 为 系数 。 


SC HPAL EAL ALL > 范 数 表示 模型 的 复杂 度 。 原 始 的 逻辑 斯 详 回 归 与 最 大 
炉 模 型 没有 正则 化 项 ， 可 以 给 它们 加 上 L > 范 数 正则 化 项 。 提 升 方法 没 


有 显 式 的 正则 化 项 ， 通 常 通 过 早 停止 (early stopping) 的 方法 达到 正则 
化 的 效果 。 


一 0-1 RA 

一 合 页 损失 

-一 逻辑 斯 谊 损失 
指数 损 大 


fie pr BY 


0 
=i 35 0 0.5 1.0 1.5 2.0 
国 数 间隔 : yf(x) 


图 12.2 ”0-1 损 失 函 数 、 合 页 损失 画 数 、 逮 辑 斯 详 损 失 画 数 、 指 数 损失 画 数 的 关系 


以 上 二 类 分 类 的 学 习 方法 可 以 扩展 到 多 类 分 类 学 习 以 及 标注 问题 ， 比 
如 标注 问题 的 条 件 随机 场 可 以 看 作 二 分 类 问题 的 最 大 和 炳 模型 的 推广 。 
概率 模型 的 学 习 可 以 形式 化 为 极 大 似 然 佑 计 或 贝 叶 斯 佑 计 的 极 大 后 验 


概率 估计 。 这 时 ， 学 习 的 策略 是 极 小 化 对 数 似 然 损 失 或 极 小 化 正则 化 
的 对 数 似 然 损 失 。 对 数 似 然 损失 可 以 写成 


-log P(y| x) 
极 大 后 验 概率 估计 时 ， 正 则 化 项 是 先 验 概率 的 负 对 数 。 


决策 树 学 习 的 案 略 是 正则 化 的 极 大 似 然 信 计 ， 损 失 函 数 是 对 数 似 然 损 
失 ， 正 则 化 项 是 决策 树 的 复杂 度 。 


逻辑 斯 谤 回归 与 最 大 入 模 型 、 条 件 随机 场 的 学 习 筑 略 既 可 以 看 成 古 极 
大 似 然 估 计 (或 正则 化 的 极 大 似 然 估计 ) ， 又 可 以 看 成 是 极 小 化 逻辑 
斯 诵 损失 《或 正则 化 的 逻辑 斯 详 损 失 ) 。 


朴素 贝 叶 斯 模型 、 隐 马尔 可 夫 模型 的 非 监督 学 习 也 是 极 大 似 然 佑 计 或 
极 大 后 验 概率 估计 ， 但 这 时 模型 含有 隐 变 量 。 


4. 学 习 算 法 


统计 学 习 的 问题 有 了 具体 的 形式 以 后 ， 整 变 成 了 最 优化 问题 。 有 时， 
最 优化 问题 比较 商 单 ， 解 析 解 存在 ， 最 优 解 可 以 由 公 邢 简单 计算 。 但 
在 多 数 情况 下 ， 最 优化 问题 没有 解析 解 ， 需 要 用 数值 计算 的 方法 或 局 
发 式 的 方法 求解 。 


朴素 贝 叶 斯 法 与 隐 马 尔 可 夫 模 型 的 监督 学 习 ， 最 优 解 即 极 天 似 伏 售 计 
值 ， 可 以 由 概率 计算 公式 直接 计算 。 


感知 机 、 逻 辑 斯 谤 回归 与 最 大 粹 模型 、 条 件 随 机 场 的 学 习 利 用 梯度 下 
降 法 、 拟 牛顿 法 等 。 这 些 都 是 一 般 的 无 约束 最 优化 问题 的 解法 。 


文 持 向 量 机 学 习 ， 可 以 解 凸 二 次 规划 的 对 偶 问 题 。 有 序列 最 小 最 优化 
算法 等 方法 。 

决策 树 学 习 古 基于 局 发 式 算法 的 典型 例子 。 可 以 认为 特征 选择 、 生 
Bt > BY AS eS AC HET ECR AAT TT ° 


HEAT EA FA >) AR A EINER > HR Ne Te A KTR 
rate gee ap ere dee 


EMR IAE — IS (CAR AR SSE ER RAS IK, TEAC 
Ay DA GRU, (He Mae rR ub ER ° 


文 持 癌 量 机 学 习 、 逻 模 斯 详 回 归 与 最 大 炳 模型 学 习 、 条 件 随 机 场 学 习 
是 吓 优化 问题 ， 全 局 最 优 解 你 证 存在 。 而 其 他 学 习 问 题 则 不 是 串 优 化 


问题 。 
附录 A 梯度 下 降 法 


梯度 下 降 法 (gradient descent) 或 最 速 下 降 法 (steepest descent) 是 求 
解 无 约束 最 优化 问题 的 一 mes MANTIS, ASCH AOL ° PEE 
BRE EIA RAE, Bo ROK AR EB Pn EE E e 


假设 ftx) 是 R" 上 具有 一 阶 连 续 偏 导数 的 范 数 。 要 求解 的 无 约束 最 优化 问 
le 


min f(x) (A.1) 
xeR" 


x “表示 目标 函数 fCo 的 极 小 点 。 

梯度 下 降 法 是 一 种 迭代 算法 。 选 取 适 当 的 初 值 x" AIAN, SBTxAY 
值 ， 进 行 目标 函数 的 极 小 化 ， a 由 于 负 梯 度 方向 是 使 函数 值 
下 降 最 快 的 方向 ， 在 迭代 的 每 一 步 ， 以 负 梯 度 方 向 更 狐 x 的 值 ， 从 而 达 
到 减少 函数 值 的 目的 。 


由 于 f(x) 具 有 一 阶 连续 偏 导 数 ， 大 第 k 次 适 代 值 为 x%， 则 可 将 f(x) 在 x" 
附近 进行 一 阶 泰勒 展开 : 


f(x) =f (x) + gf (x- x) (A.2) 
这 里 ，g | 二 g(x ) 二 Vf(x*) 为 f(x) 在 x 的 梯度 。 


求 出 第 k+1 次 碗 代 值 x*?: 


(k+l) 


eo) gag Ap, (A.3) 


其 中 ，p 是 搜索 方向 ， 取 负 梯 度 方向 p, =-V ix”), a, BK, BO 
维 搜索 确定 ， 即 4 ,使 得 


fA +A,p,) = min f(x +Ap,) (A.4) 
梯度 下 降 法 算法 如 下 : 
算法 A.1 (梯度 下 降 法 ) 
HA: 目标 画 数 f(x)， 梯 度 画 数 g(x)=V f(x)， 计 算 精度 ; 
输出 : f(x) 的 极 小 点 x*。 
(1) 取 初 始 值 xweR"， 置 k=0 
(2) 计算 f(x%) 


(3) 计算 梯度 g, =9(x”), Sle Ike, SIAR, x*=xe;, F 
MW, Spy =-g(k®), KA, IE 


Ak) 


fe +A, p,)= min T(x" +Ap,) 
(4) Bx xota pr, HE) 
3 ||f&K ©? )-F(K IKE Blk? -K SER, FbjaN, Sx 三 Xe 
(5) 否则 ， 置 k=k+1, #% (3) 。 


当 目 标 函 数 是 凸 函 数 时 ， 梯 度 下 降 法 的 解 是 全 局 最 优 解 。 一 般 情况 
下 ， 其 解 不 保证 是 全 局 最 优 解 。 梯 度 下 降 法 的 收敛 速度 也 未 必 是 很 快 


的 。 
附录 B 牛顿 法 和 拟 牛 顿 法 


牛顿 法 (Newton method) 和 拟 牛 顿 法 (quasi Newton method) 也 是 求 
解 无 约束 最 优化 问题 的 营 用 方法 ， 有 收敛 速度 快 的 优点 。 牛顿 法 是 迭 
代 算 法 ， 每 一 步 需 要 求解 目标 函数 的 海 赛 矩阵 的 逆 垂 孟 ， 计 算 比 较 复 
JE o FA WET IE RE E RE (DE BAB A BH BEE, TIAL, 
了 这 一 计算 过 程 。 


1. 牛顿 法 

考虑 无 约束 最 优化 问题 
min f(x) (B.1) 
xeR" 


其 中 x Ty EPR BNR, ° 


(UXO) AA MER RSE, ABAM”, M REx 
附近 进行 二 阶 泰勒 展开 : 


f(x) = f(x) + gh (x— x) +(x) H(x" Ax- x’) (B.2) 


XE, gk =9(x™)=V fx) SiR NE BER x WE, HK) 
f(x) A HESEFERE (Hesse matrix) 


of 
wo- J | (B.3) 
On sis j nxn 


TESO RNE © KREE RIA BARE TEE AUP SERN, 
BUBERI BRDO + 特别 是 当 HCe") 是 正定 短 阵 时 ， 醒 数 o9 的 极 人 为 要 小 
牛顿 法 利用 极 小 点 的 必要 条 件 

Vv/(x)=0 (B.4) 


每 次 欠 代 中 从 点 xw 开 始 ， 求 目标 函数 的 极 小 点 ， 作 为 第 k+1 次 友 代 值 x 
“。 具 体 地 ， 假 设 x“ 满足 : 


Vf/(x*™)=0 (B.5) 
由 式 (B.2) 有 
Vf (x)= 2, +H, (x-x”’) (B.6) 


其 中 Hi =H(x®) ° ithe, zt (B.5) 成 为 


g, +H, (x? — x) =0 (B.7) 
因此 ， 
xe") = x) — Hyg, (B.8) 
或 者 
a Fp, (B.9) 
其 中 ， 
H,p, =-2, (B.10) 


用 式 (B.8) 作为 迭代 公式 的 算法 就 是 牛顿 法 。 
算法 B.1 (牛顿 法 ) 
输入 : 目标 函数 f(x)， 梯 度 g(x) = V O, EREHE, RAKE ; 
输出 : fo 的 极 小 点 x ° 
(1) 取 初 始点 x" ， 置 k=0 
(2) 计算 gk =g”) 
(3) 若 lgkll<E ， 则 停止 计算 ， 得 近似 解 x =x 
(4) 计算 H, =H”), FRp, 

H,p, =—g, 
(5) Ex =x®+p, 


(6) Bk=k+1, # (2) 。 


步骤 (4) Rp, Pe=—Hi g: ， 要 求 Hi ， 计 算 比较 复杂 ， 所 以 有 其 
他 改进 的 方法 。 


2. 拟 牛 顿 法 的 思路 


在 牛顿 法 的 迭代 中 ， 需 要 计算 海 赛 矩 阵 的 闻 矩 阵 H ， 这 一 计算 比较 复 
杂 ， 考 虑 用 一 个 n 阶 矩阵 G，= G(xw) 来 近似 代替 Er = 及 w) 。 这 就 
是 拟 牛顿 法 的 基本 想法 。 

先 看 牛顿 法 迁 代 中 海 赛 矩阵 H 满足 的 条 件 。 首 先 ，H ,满足 以 下 关系 。 
在 式 (B.6) 中 取 x=Xxeo ， 即 得 


Sint Eps Ao -= x“) (B.11) 


WY k Fg gk Ok=x-x”, M 

y, = H,ð, (B.12) 
或 

li =, (B.13) 
式 (B12) 或 式 (B.13) 称 为 拟 牛 顿 条 件 。 


如 果 H 是 正定 的 (Hr 也 是 正定 的 ) ， 那 么 可 以 保证 牛顿 法 搜索 方向 p 
,是 下 降 方向 。 这 是 因为 搜索 方向 是 p, =-4g,， 由 式 (B.8) 有 


大 三 六 +Ap, =x" =AH; g, (B.14) 
所 以 f(x) 在 x" 的 泰勒 展开 式 (B.2) 可 以 近似 写成 : 
f(x)=f(x")- Age Hr 8 (B.15) 


RAL 正定 ， 故 有 Sr Hr Se > 0 。 当 4 为 一 个 充分 小 的 正 数 时 ， 总 有 
f(x)<ftxw)， 也 就 是 说 pk, 是 下 降 方 向 。 


拟 牛 顿 法 将 Gk 作为 全 的 近似 ， 要 求 矩 阵 G 4 满足 同样 的 条 件 。 表 先 ， 
每 次 迭代 逢 阵 G | 是 正定 的 。 同 时 ，G 满足 下 面 的 拟 牛顿 条 件 : 


Gi =O, (B.16) 
按照 拟 牛 顿 条 件 选 择 G |, 作为 HH i 的 近似 或 选择 B | 作为 Hl 的 近似 的 算 
法 称 为 拟 牛 顿 法 。 
按照 拟 牛 顿 条 件 ， 在 每 次 迭代 中 可 以 选择 更 新 矩阵 G pyi: 

G, =G, + AG, (B.17) 


这 种 选择 有 一 定 的 灵活 性 ， 因 此 有 多 种 具体 实现 方法 。 下 面 介 绍 
Broyden 类 拟 牛 顿 法 。 


3. DFP (Davidon-Fletcher-Powell) 算法 (DFP algorithm ) 


两 个 附加 项 构成 的 ， 即 


G..,=G, +P +0, (B.18) 


其 中 Pk ，Qk 古 每 是 和 矩阵。 这 时， 


Gayi =G; z, +hy+O,.y, (B.19) 
KIEG p PEMER, OEP p Q 满足 : 
P y, =, (B.20) 
Q, Vy 一 -G, Vi (B.2 l ) 


事实 上 ， 不 难 找 出 这 样 的 pk 和 Qk ， 例 如 取 


> oT 
0,0, 


P 三 一 一 B.22) 
k ô y, ( 
G, y, y'G 
k? kt k k 
三 一 一 一 一 一 (B.23) 
2, y.G.y, 


这 样 就 可 得 到 矩阵 G，; BERAR: 


$ ST z ? M i a 
OO, Gy 


G 
k+l os. , ak 2 
Ò, Vy Vg G, Yi 


=G, + 


k 


(B.24) 


称 为 DFP 算 法 。 


可 以 证 明 ， 如 采 初 始 矩 阵 Go 十 正定 的 ， 则 迭代 过 程 中 的 每 个 矩阵 Gk 都 
征 正 定 的 。 


DEFP 算 法 如 下 : 

算法 B.2 (DFP 算 法 ) 

输入 : HKA), Hgy f(x)， 精 度 要 求 € ; 
输出 f(x) 的 极 小 点 x”。 

(1) 选 定 初始 点 x® ， 取 G0 为 正定 对 称 矩 隆 ， 置 k= 二 0 


(2) 计算 gx =g(x%)。 荐 IgkI<E ， 则 停止 计算 ， 得 近似 解 x =x; 
否则 转 (3) 


(3) Sp, =-G,g 
(4) 一 维 搜索 : OKA, 使 得 


(k) 


io +4, P,) = min fœ + Ap,) 


(5) Ex =x4+Q,p, 


(6) Age =g(x"”)， 若 |g krill<E ， 则 停止 计算 ， 得 近似 解 x =x 
wy. ARM, Fev (B.23) 算出 Gilui 


(7) Bk=k+1, # (3) 。 


4. BFGS (Broyden-Fletcher-Goldfarb-Shanno) 算法 (BFGS 
algorithm) 


BFGSR IAE Bi tT GF RE 。 


AY DAS FG | Je PE BE EA EH, HO NA RAB | 逼近 海 赛 
FEMEH © 


这 时 ， 相 应 的 拟 牛 顿 条 件 是 


Bud = y, (B.25) 
BT AA ERED ERA ERAR e BIS 
B,,, =B; tR +0, (B.26) 
B, 6 = B,6, + Pô, +0,ô, (B.27) 
考虑 使 P FIQ p 满足 : 
Pô, =y, (B.28) 
0.6, =-BO (B.29) 


找 出 适合 条 件 的 Pk 和 Qik ， 得 到 BFGS 算 法 矩阵 Bi 的 迭代 公式 : 


(B.30) 


可 以 证 明 ， 如 采 初 始 和 矩阵 Bu 是 正定 的 ， 则 适 代 过 程 中 的 每 个 窍 阵 Bk 都 
征 正 定 的 。 


下 面 写 出 BFGS 拟 牛顿 算法 。 

算法 B.3 (BFGS 算 法 ) 

输入 : 目标 范 数 f(x)，g(x) 二 Vf(x)， 精 度 要 求 € ; 
输出 ， f(x) 的 极 小 点 x”。 

(1) 选 定 初始 点 x® ， 取 B 0 为 正定 对 称 矩 阵 ， 置 k=0 


(2) 计算 gk 一 gCxw)。 若 lgxkll<E ， 则 停止 计算 ， 得 近似 解 x =x; 
否则 转 (3) 


(3) FAB yp, 三-gk 求 出 pk 
(4) 一 维 搜索 : 求 1 使 得 


AK) 


a © oi +A, p,)= min I(x" + Ap,) 


(5) Hx" =x4+A yD, 
(6) tge =gGxe2)， 若 lgkdill<E ， 则 停止 计算 ， 得 近似 解 x 7 =x 
«o> 否则 ， 按 式 (B30) 算出 Bi 

(7) Bk=k+1, 转 (3) 。 

5. Broyden 类 算法 (Broyden’s algorithm) 


我 们 可 以 从 BFGS 算 法 矩阵 B | 的 迭代 公式 (B.30) 得 到 BFGS 算 法 关于 
Gik 的 迭代 公式 。 事 实 上 ， 者 记 G, =B", Ga =B, Maxx 
(B.30) 两 次 应 用 ShermanMorrisn 公 式 中 即 得 


, T ， 
6, y’ Sy) Go 
qu-| be jaf- pe (B.31) 


~T ST ST 
Ò; Y, Ò; Yı Ò; Yı 


称 为 BFGS 算 法 关于 G 的 迭代 公式 。 


由 DFP 算 法 Gu 的 迭代 公式 (B.23) 得 到 的 Gy 记 作 G””， 由 BFGS 算 法 
G .的 迭代 公式 (B.31) BEING, EG’, EEA EWA i 
条 件 式 ， 所 以 它们 的 线性 组 合 


G,,,=aG? +(-a)G (B.32) 


也 满足 拟 牛 顿 条 件 式 ， 而 且 是 正定 的 。 其 中 0<a<1。 这样 就 得 到 了 一 类 
拟 牛 顿 法 ， 称 为 Broyden 类 算法 。 


注释 


[1]. Sherman-Morrison 公 式 : 假设 A 是 n 阶 可 逆 和 矩阵 ，uv 是 n 维 回 量 ， 且 A+uvT 也 是 可 逆 和 矩阵 ， 
则 


Auv! A 


T 1 
l+v Au 


PASC ” 拉 格 明日 对 偶 性 


在 约束 最 优化 问题 中 ， 和 常常 利用 拉 格 朗 日 对 侦 性 (Lagrange duality) 将 
原始 问题 转换 为 对 侦 问 题 ， 通 过 解 对 侦 问 题 而 得 到 原始 问题 的 解 。 该 

方法 应 用 在 许多 统计 学 习 方法 中 ， 例 如 ， 最 大 燃 模 型 与 支持 问 量 机 。 

这 里 简要 斤 述 拉 格 朗 日 对 侦 性 的 主要 概念 和 结果 。 


1. 原始 问题 


假设 f(x)，ci(x)，h;(%) 是 定义 在 R" 上 的 连续 可 微 函数 。 考 虑 约束 最 优 
化 问题 


min f(x) (C.1) 
xeR" 


(A+uv' 证 = A” 


st. ¢(x)<0, i=1,2,---,k (C2) 


h(x)=0, j=1,2,---,/ (G3) 


称 此 约束 最 优化 问题 为 原始 最 优化 问题 或 原始 问题 。 
首先 ， 引 进 广义 拉 格 朗 日 画 数 (generalized Lagrange function) 
l 
L(x,a, B) = f(x)+ $ ac (x)+ 2 Bh, (x) (C.4) 
i=l j=l 
XE, x=(K,x®,...X)"ER", aj, B EMI HHRTF, a,20° Se 


Xx 的 函数 : 
0,(x) = max L(x, a, p) (C.5) 


这 里 ， 下 标 P 表 示 原 始 问 题 。 
假设 给 定 某 个 x。 如 有 果 x 违 反 原 始 问题 的 约束 条 件 ， 即 存在 某 个 ji 使 得 ci 
(w)>0 或 者 存在 某 个 j 使 得 hj(w)z0， 那 么 就 有 

0,(x)= max /0 十 > cc (x) 十 Lh (x) | =+% (C.6) 
因为 看 某 个 i 使 约束 ci(CO>0， 则 可 令 ai >to, ARN; fh (x40, Na 
SB j 使 B j hj (x) 一 十 99 3 而 将 其 余 各 ai bj 均 取 为 0 9 


相反 地 ， 如 果 x 满 足 约束 条 件 式 (C.2) 和 式 (C.3) ， 则 由 式 (C.5) 和 
wt (C.4) TJA, @ p(X) 二 f(x)。 因 此 ， 


一 |/(x)，x 满 足 原始 问题 约束 
TO 其 他 iai 


所 以 如 果 考 虑 极 小 化 问题 


min @, (x) = min max L(x,@, p) (C.8) 
x x a, fica, =0 


它 是 与 原始 最 优化 问题 (C.1) ~ (C.3) 等 价 的 ， 即 它们 有 相同 的 解 。 
问题 min Ra ae L(x... B) 称 为 广义 拉 格 朗 日 画 数 的 极 小 极 大 问题 。 这 


样 一 来 束 把 原始 最 优化 问题 表示 为 广义 拉 格 明日 函数 的 极 小 极 大 问 
题 。 为 了 方便 ， 定义 原始 问题 的 最 优 值 


p= min 0,,(x) (C.9) 
称 为 原始 问题 的 值 。 
2. 对 偶 问题 
定义 
0, (a, B) = min L(x,a, P) (C.10) 
HARKIO (a.p) =minL(x.a. p)» FD 


max 0, (a, B) = max min L(x, æ, P) (C.11) 
a,f:a,=0 — a,fia,=0 x 


[ale Te min L(x. æ. B) 称 为 广义 拉 格 朗 日 画 数 的 极 大 极 小 问题 。 
可 以 将 广义 拉 格 明日 函数 的 极 大 极 小 问题 表示 为 约束 最 优化 问题 : 


max Op (a, P)= max min L(x, a, p) (C.12) 
st. @,20, i=1,2,---,k (C.13) 
称 为 原始 问题 的 对 倡 问 题 。 定 义 对 倡 问题 的 最 优 但 
d'= max Op (a, p) (C.14) 


称 为 对 偶 问 题 的 值 。 
3. 原始 问题 和 对 偶 问 题 的 关系 


下 面 讨论 原始 问题 和 对 倡 问 题 的 天 系 。 
定理 C.1 若 原 始 问 题 和 对 偶 问题 都 有 最 优 值 ， 则 

d = max min L(x,@, 8) = min max L(x, a, p) = (C.15) 
证 明 ”由 式 (C12) 和 式 (C5) ， 对 任意 的 ap 和 x， 有 


6,,(a, 8) = min L(x, a, p) = L(x,a, 8) 三 max L(x,a, 8) =6,(x) (C.16) 
x a,fp:a, 20 


BẸ 
0 (a, p) < 0,(x) (C.17) 
由 于 原始 问题 和 对 偶 问 题 均 有 最 优 值 ， 所 以 ， 
„max i 0 (a, B) S min 0, (x) (C.18) 
即 
d" = max min L(x,a, B) < min max L(x,a,f) =p (C.19) 


推论 C.1 ix Ala ,分别 是 原始 问题 (C.1) ~ (C3) 和 对 偶 问 题 
(C.12) ~ (C.13) 的 可 行 解 ， 并 且 d =P*， 则 x“ 和 a*,B "分 别 是 原始 
问题 和 对 俩 问题 的 最 优 解 。 


在 某 些 条 件 下 ， 原 始 问题 和 对 偶 问题 的 最 优 值 相等 ，d' =P。 这 时 可 
以 用 解 对 偶 问题 蕉 代 解 原始 问题 。 下 面 以 定理 的 形式 叙述 有 关 的 重要 
结论 而 不 予 证 明 。 

定理 C.2 ”考虑 原始 问题 (C.1) ~ (C3) 和 对 偶 问题 (C.12) ~ 
(C.13) o BORROM CEMER, h (x) 是 仿 射 函数 ， 并 且 假设 
不 等 式 约束 ci(x) 是 严格 可 行 的 ， 即 存在 x， 对 所 有 i 有 ci(x)<0， 则 存在 x 
a",B"， 使 x "是 原始 问题 的 解 ，a*,B" 是 对 偶 问题 的 解 ， 并 且 


= Ls) 


(C.20) 


定理 C.3 ”对 原始 问题 (C.1) ~ (C.3) 和 对 偶 问 题 (C.12) ~ 
(C.13) ,假设 钞 数 {(x) 和 cj;(x) 是 是 函数 ，h;(x) 是 仿 射 函数 ， 并 且 不 等 
式 约束 c;(x) 是 严格 可 行 的 ， 则 x* 和 a*,B' 分 别 是 原始 问题 和 对 侦 问 题 的 
解 的 充分 必要 条 件 是 x*,a',B' 满 足下 面 的 Karush-Kuhn-Tucker(KKT) 条 

件 : 


VL a p j=0 

Vx nm ,B81=0 

VoL(x a, p )=0 
a,c(x)=0, i=1,2,---,k 


c(x")<0, i=1,2,---,k 


h(x) =0 J= Lha] 


特别 指出 ， 式 (C.24) 称 为 KKT 的 对 偶 互 补 条 件 。 由 此 条 件 可 知 : 


(C.21) 

(C.22) 

(C.23) 
(C.24) 
(C.25) 
(C.26) 
(C.27) 


a, >0， 则 ci(x7)=0。 
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监督 学 习 (semi-supervised learning) 


贝 叶 斯 估计 (Bayesian estimation) 
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标注 (tagging) 


不 完全 数据 (incomplete-data) 
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Y 


测试 集 (test set) 

测试 数据 (test data) 

测试 误差 (test error) 
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代价 函数 (cost function) 
代理 损失 函数 (surrogate loss function) 
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对 偶 算 法 (dual algorithm) 
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i 
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牛顿 法 (Newton method) 
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统计 学 习 方 法 (statistical learning method) 


统计 学 习 理 论 (statistical learning theory) 


统计 学 习 应 用 (application of statistical learning) 
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维特 比 算法 (Viterbi algorithm) 
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总 变量 (hidden variable) 
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正定 核 函 数 (positive definite kernel function) 

正则 化 (regularization) 

正则 化 项 (regularizer) 
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支持 问 量 机 (support vector machines, SVM) 

指示 函数 (indicator function) 

指数 损失 函数 (exponential loss function) 

中 位 数 (median) 

状态 序列 (state sequence) 
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字符 串 核 画 数 (string kernel function) 

最 大 后 验 概 率 估 计 (maximum posterior probability estimation, MAP) 
最 大 间隔 法 (maximum margin method) 

TARRA (maximum entropy model) 

最 大 团 (maximal clique) 

最 速 下 降 法 (steepest descent) 


最 小 二 乘法 (least squares) 


最 小 二 乘 回 归 树 (east squares regression tree) 


0-1 损 失 函 数 (0-1 loss function) 


AdaBoost 算 法 (AdaBoost algorithm) 
Baum-Welch 算 法 (Baum-Welch algorithm) 


BFGS 算 法 (Broyden-Fletcher-Goldfarb-Shanno algorithm,BFGS 
algorithm) 


Broyden 类 算法 (Broyden's algorithm) 

C4.5 算 法 (C4.5 algorithm) 

DFP 算 法 (Davidon-Fletcher-Powell algorithm,DFP algorithm ) 
EM 算法 (EM algorithm) 

FKZ (F function) 

Gram 和 矩阵 (Gram matrix) 

ID3 算 法 (ID3 algorithm) 

Jensen 不 等 式 (Jensen inequality) 

kd 树 (kd tree) 


KKT (Karush-Kuhn-Tucker) 条 件 (KKT (Karush-Kuhn-Tucker) 
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Le (L norm) 
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QHZ (Q function) 
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